0%

【论文阅读】A Compact Belief Rule-Based Classifier with Interval-Constrained Clustering

【论文阅读】A Compact Belief Rule-Based Classifier with Interval-Constrained Clustering

DIO:10.23919/ICIF.2018.8455784

作者:焦连猛、耿小姣、潘泉

年份:2018

 

基于区间约束聚类的紧凑型BRB分类模型

该方法的主要思想是基于原始训练集生成的一组原型,学习一个紧凑的信念规则库。首先,采用区间约束聚类算法将每个类的训练数据划分为若干个簇,在给定的区间内可以约束属于每个簇的数据数量。然后,我们根据每个簇的中心点定义一个置信规则。最后,我们设计了一个双目标优化过程,得到了一个在精度和可解释性之间有较好折衷的紧凑的置信规则库。

 

1.BRB分类系统概述

BRB分类系统由置信规则库和置信推理方法两个概念组成。

1)置信规则库

对于有 M 种类别(Ω=[w1,...,wM]),有P个特征的问题,BRB规则定义为:

传统的生成 BRB 的方法步骤为:

step1:特征空间的划分。采用基于模糊网格的方法将 P 维特征空间划分为 个模糊区域。

step2:为每个模糊区域生成结果类。将每个训练数据分配给匹配度最大的模糊区域,并将分配给同一模糊区域的训练数据的类标签组合起来得到相应的类。

step3:规则权重的生成。规则权重由两种度量方法共同确定,即置信度和支持度。

step4:评价结果置信的生成。基于前件特征与后件类的相关性分析,计算评价结果置信。

 

2)置信推理方法

生成 BRB 后,使用下面的方法对测试数据进行分类:

Step1:关联度的计算。 通过规则权重和与前件部分的匹配度的乘积,计算出测试数据与各激活规则的关联度。

step2:按关联度折算。 利用Shafer的折现运算,将每个激活信念规则的后果按上述关联度进行折现。

Step3:证据的递归组合。利用Dempster规则将所有激活规则的折现后的证据片段递归组合。

Step4:根据组合后的证据进行决策。 测试数据被分配到具有最大概率的类。

 

2.区间约束聚类算法

区间约束聚类算法属于划分层次聚类方法的范畴。

区间约束聚类算法的核心是:如果现有某个簇的大小超过上限 ,则会被一个与属于该簇的数据的平均特征值相关联的超平面所分割。超平面的选择应满足两个条件:得到的两个簇的大小都应大于其下限 ,数据采集度应最大化。如果没有满足上述条件的超平面,则现有的群集将不会被分割。这个除法过程将被反复执行,直到没有一个簇的大小超过 且可以被除掉。

区间约束聚类算法的具体步骤为:

  • 要求:数据集 D、维度 P、下限 、上限
  • step1:在没有开始聚类前,所有的数据都属于一个簇 C1 ← D。

  • step2:随机选择一个规模超过上限的簇

  • step3:分别计算簇 在每个特征上的均值

  • step4:将簇 划分成两部分。上一步求出了每个特征上的均值 ,使用这个均值就可以将簇 分成两个部分,但是有 P 个特征,也就是有 P 种划分方案。

    那么这里决定选用满足这两个条件的划分方案:1)划分后两部分的规模都要大于下限;2)具有最小误差和

    .

    其中, 表示将簇 按照第 P 维特征的均值划分后第一部分(对象值小于均值)的规模; 表示划分后第二部分(对象值大于等于均值)的规模;

  • step5:一直迭代执行2、3、4步骤,直到没有簇的规模大于上限,算法停止;

可以知道,在算法结束前我们不能确定会分成多少簇;

 

3.构建紧凑的BRB

假设有 N 组输入数据 T,总共有 M 种类别标签 (Ω=[w1,...,wM])。

首先我们按照类别标签,将数据 T 分成 M 个子集 ,也就是将来自同一类的数据放在同一个子集中。

然后,对每个子集分别使用区间约束聚类算法,将 分成若干个簇。如果我们用 表示把第 k 个子集(即第 k 种标签的数据)划分成簇的规模,那么我们对全部数据执行区间约束聚类算法后可以得到 个簇。

最后,我们为一个簇构建一个置信规则;

在这个紧凑型BRB学习方法中,有两个开发型参数:下限 、上限 ,它们直接关系簇的个数。选择合适的上限是紧凑BRB学习方法的关键,上限设置太小将会产生更多的簇,导致库的规模太大。上限有两种边界情况:

  • 子集 中每个簇的规模上限 ,即子集 中每个簇只能有一个对象,规则数量达到最大值,那么紧凑BRB学习方法就退化成传统模式了;
  • 子集 中每个簇的规模上限 ,即子集 只划分一个簇,规则数量达到最小值,那么紧凑BRB学习方法将分别为每类数据生成一条规则;

规则越多通常意味着分类模型越精确,而模型可解释性越低;

 

4.参数优化

本节目标是能设计一个目标函数,能找到合适的上限,从而构建合适数量的规则,达到精度与可解释性的平衡。

为了达到预期的平衡,最小化两个目标:

  • 代表可解释性的规则数量 NUM;
  • 代表精度的均方误差:

基于上述两个目标,我们通过调整子集 中每个簇的规模上限 ,从而调整 NUM 和 MSE,从而最小化下面的目标函数:

  • 表示当所有子集 中每个簇的规模上限 时整个规则库的规模,此时规则数量达到最大值;
  • 分别表示权重,取值区间为 [0,1];

 

5.案例研究

5.1 案例一:合成数据集

考虑如图所示的两分类数据集,实心圆表示类别 C1,空心圆表示类别 C2;共有121个数据点;

属性设置:两个前件属性 x1、x2,两个评价结果 c1、c2;

前件引用值的设置:按照类别,我们可以每个属性划分为如下 5 个分区,那么每个属性都使用 5 个引用值;

使用传统方法生成 BRB,如上图所示25个模糊网格,需要对应 25 条规则;

使用本文的方法生成BRB,先分别对两个类使用区域约束聚类算法,经过优化后(默认权重 为1,类别1上限为 24,类别2上限为 18),划分结果如下图所示,c1类数据划分了 4 个簇,对应构建4条规则 R1、R2、R3、R4;c2类数据划分了 6 个簇,对应构建 6 条规则 R5、R6、R7、R8、R9、R10。需要10条规则。

 

5.2 案例二:UCI经典数据集

使用如下四个经典数据集:

将本文的方法 CBRBC 与传统的BRBCS以及K-NN、C4.5和naive-Bayes等几种最新分类方法进行了性能比较。

可见,BRBCS和CBRBC这两种信念规则库分类器的性能与目前最先进的方法相当。与传统的BRBCS相比,所提出的CBRBC在准确性和可解释性之间取得了更好的折衷(规则的大小越小,牺牲的准确性越小)。

【论文阅读】A belief-rule-based model for information fusion with insufficient multi-sensor data and domain knowledge using evolutionary algorithms with operator recommendations

【论文阅读】A belief-rule-based model for information fusion with insufficient multi-sensor data and domain knowledge using evolutionary algorithms with operator recommendations

DOI:10.1007/s00500-018-3179-9

作者:zhouyu,常雷雷

年份:2019

 

本文是提出了一个 BRB-IF 模型(但是我没有看出这个BRB-IF 模型和普通DBRB模型有何不同)

本文的主要改进我认为有两点:

  • 一是在结果评估上,增加了一个变量微分比ν,对于推理结果,当后件属性的最大置信度和第二大置信度之间的差异没有大于微分比 ν 时,将产生“未知”的输出。
  • 二是提出一种将 PSO/DE 结合并带有算子推荐策略的优化算法。

 

 

基于信念规则的多传感器数据和领域知识不足信息融合模型

本文提出了一种基于BRB的多传感器融合模型,即BRB-IF 模型,以及对应的优化模型和优化算法,以粒子群优化算法和微分进化算法为优化引擎,采用算子推荐策略求解优化模型。

 

1.介绍

多传感器信息融合案例有三个问题:

  • 第一个是数据类型不一致;
  • 第二个是缺乏足够的数据;
  • 第三个在信息融合过程中应该有专家知识参与。

 

2.BRB-IF优化模型

BRB-IF模型使用析取式规则:

本次优化模型引入一个新的变量,即微分比ν。对于推理结果,当后件属性的最大置信度和第二大置信度之间的差异不够大时,它被用来产生“未知”的输出:

显然,如果 ν=0,则没有未知输出。

目标函数使用均方误差: ,其中

和通常的BRB的优化模型一样,目标函数是估计输出与实际输出的均方误差(MSE),待优化参数是前件属性参考值A、属性权重δ、规则权重θ、后件属性置信分布β,以及新引入的参数微分比ν:

 

3.带有算子推荐的优化算法

本研究提出一种将 PSO/DE 结合并带有算子推荐策略的优化算法。

PSO算法对应粒子群,一个粒子就是一个解(即BRB模型最优的一种参数方案)

DE算法对应种群,一个个体就是一个解(即BRB模型最优的一种参数方案)

为了方便,这里将粒子群和种群统称为种群,粒子和个体统称为个体。

思路是:将种群分为PSO算法种群和DE算法种群两部分,在迭代过程中,哪个算法的种群个体适应度更好,就将这个算法种群规模扩大,将另一个算法种群规模缩小,维持总的种群规模不变。种群的进化使用各自的方法,PSO种群进化通过更新粒子速度和位置,DE种群进化通过变异和交叉操作。

这个优化算法的步骤为:

step1:初始化种群,并设置PSO算法、DE算法的参数。初始时候PSO种群和DE种群完全一样。

step2:种群进化,从这一代的个体中进化出新的个体。PSO算法是更新粒子的速度和位置。DE算法是用交叉和变异操作使种群进化。

PSO算法

DE算法的变异 交叉

step3:个体的适合度计算。将个体作为BRB模型的参数方案,经历ER推理过程(个体匹配度、激活权重、合成置信度)得到BRB估计值和真实值的误差,用这个误差作为适应度。

step4:比较这一代的个体和进化后的新个体的适应度,选择最优的个体作为下一代。

比如PSO算法的选择:

step5:使用算子推荐策略(通常每迭代10代使用一次算子推荐策略)。比较当前这一代中PSO种群和DE种群的个体适应度,如果PSO种群的个体适应度普遍优于DE种群,那么下一代中增加PSO种群规模,减少DE种群规模,反之亦然。详细步骤为:

  • 将上一步产生的这些个最优个体的适应度值加入到有序列表中。如果一个PSO个体的适应度值排到列表的前半部分,那么就让 num(PSO) 为1,否则为 0。对DE个体也一样。

  • 分别计算在列表前 半部分 PSO 个体和DE个体的百分比:

    备注: 表示第 gen 代中 PSO 种群的规模。

  • 为了防止迭代过多次数后,将某个种群的个数消减为0,使用一些措施进行预防。比如,当PSO种群规模占据上风时:

  • 根据这个百分比来确定下一代中 PSO种群和DE种群的规模。

step6:检查停止条件。

 

4.案例研究

(1) 威胁等级评估案例

有七个前件属性、一个后件属性(3个引用值)

训练数据集

 

测试数据集

 

(2)四个模型比较

比较了四个模型,分别是初始BRB模型、由PSO算法训练后的BRB模型、由DE算法训练后的BRB模型、由算子推荐策略训练后的模型。

模型1:由专家给出的初始RBB模型

 

模型2:使用PSO算法训练后的BRB模型:

 

模型3:使用DE算法训练后的BRB模型:

 

模型4:使用PSO/DE结合并带有算子推荐策略的优化算法训练后的模型(本文提出的优化模型):

 

下图是四个模型的在数据集上的 MSE 结果显示,模型4的效果最好,模型4在训练和测试数据集的 MSE 都降低到0。然后使用 DE 训练的效果排第二,优于使用PSO算法训练的效果。

 

下图是四个模型的训练收敛效率曲线,在在很短的训练时间内,模型2、3、4的 MSE 远低于模型1的MSE。模型2、3在400代和600代之间达到最小值,模型 4 可以在更小的代数上实现最小的MSE。

 

下图显示模型 4 中PSO种群规模和DE种群规模随着迭代代数的变化。在早期,PSO被赋予了更大的种群规模,因为它产生了更好的个体,而在后期大概迭代了75代后,DE种群规模开始多出PSO种群规模。这与上图中模型2(PSO)、模型3(DE)性能的比较一致,早期先是PSO算法优于DE算法,后期DE算法优于PSO算法。

 

(3)与神经网络比较

【论文阅读】A Novel Fault Detection Model Based on Atanassov’s Interval-Valued Intuitionistic Fuzzy Sets, Belief Rule Base an

【论文阅读】A Novel Fault Detection Model Based on Atanassov’s Interval-Valued Intuitionistic Fuzzy Sets, Belief Rule Base and Evidential Reasoning

DIO:10.1109/ACCESS.2019.2962390

期刊:IEEE Access

作者:贾乾磊(西北工业大学2016级研究生)、胡嘉悦(西北工业大学2018级研究生)、章卫国(西北工业大学教授)

年份:2019

引用:Jia Q , Hu J , Zhang W . A Novel Fault Detection Model Based on Atanassov's Interval-valued Intuitionistic Fuzzy Sets, Belief Rule Base and Evidential Reasoning[J]. IEEE Access, 2019, PP(99):1-1.

 

本文的目的是结合Atanassov区间值直观模糊集(AIVIFSs)、置信规则库(BRB)和证据推理(ER),设计一种新的故障检测模型。

  • 本文采用的是Atanassov区间值直观模糊集(AIVIFSs),其特征是能够揭示区间值隶属度和区间值非隶属度的不确定性。与传统方法采用的是Atanassov的直觉模糊集(AIFSs)相比,区间值在表示不确定信息能力更强。
  • 对于Atanassov的区间值直观模糊集,以往的方法存在对信息利用不足的缺点,因此本文以 p-范数的思想提出了一种应用于量化AIVIFSs所包含信息的评分函数。
  • 将 Atanassov’s 区间值直观模糊集、信念规则基础和证据推理相结合,依据证据推理的流程,计算规则的激活区间权重、规则区间权重,合成激活的规则,得到综合的结论区间置信度。表达故障检测问题的随机性和不确定性。 最后,依据评分函数对结论属性进行排序,将得分最高的结论属性作为最终结果。

 

 

基于Atanassov区间直觉模糊集、信念规则库和证据推理的一种故障检测模型

摘要:在工程实践中,故障检测具有随机性、不确定性、破坏性大的基本特点。本文的主要目的是利用Atanassov的区间值直观模糊集(AIVIFSs)、信念规则库(BRB)和证据推理(ER),研究有关于嵌入式飞行数据传感(FADS)系统的问题。

  • 首先,本文介绍了AIVIFSs的一些相关概念和相似度计算运算公式,同时,在前人研究的基础上,提出了一种新的相似度计算方法。
  • 然后,针对AIVIFSs所描述的正、负信息,以p-范数的思想提出了一种应用于量化AIVIFSs所包含信息的评分函数,该函数是在参考水平的信息度量基础上定义的。
  • 其次,将描述随机性和不确定性的特征的AIVIFSs和BRB结合起来,建立了ER的故障检测模型。
  • 最后,给出了算法过程,并将所提出的模型首次应用于FADS的故障检测,以证实其有效性和可行性。

 

1.问题背景

在过去的几十年里,在故障检测领域中的大量研究工作可分为三类:

  • 基于分析模型的方法。 滤波法[1]、[2]、最小二乘法[3]、[4]和等效空间法[5]是主要的解决方法,这些方法的主要思想是:首先,根据系统各部分之间的联系建立模型。 然后,通过逻辑推理推导出系统在正常情况下的预期性能。最后,将观察到的系统的实际性能与预期性能进行比较。如果有差异,则表明存在故障。研究表明,这些方法能够提供科学的检测结果,缺点是这些方法需要高精度的模型,但在建立系统的数学模型时很难保证准确性,这将在一定程度上导致检测性能的损失。
  • 基于信号处理的方法。 与上述方法不同,基于信号处理的方法,包括傅里叶分析、小波分析、频谱分析等,对所建立的模型的准确性没有严格的要求[6]-[8]。这些方法都倾向于利用信号的频率、幅度、相位、相关性等参数来检测异常信号。虽然这些方法可以在一定程度上解决这个问题,但研究中却产生了一些困难。例如,在傅里叶分析方面,它是以信号的平稳性为前提的,但大部分故障信号都包含在瞬态信号中,这将导致非稳态动态信号的性能不佳。
  • 基于知识的方法。 为解决故障检测问题,在过去的几十年里进行了许多基于知识的研究,包括专家系统[9]、模式识别[10]、[11]、神经网络[12]-[14]和其他方法。虽然这些方法无论建立的模型是否准确,都具备处理问题的能力,但在优化结构、减少计算量方面仍有很大的改进空间。

必须指出的是,在实际的故障检测问题中,各种不确定因素可能同时存在,例如,随机信息可能与无知共存,从而导致知识的归纳不确定。因此,开发一种新的故障检测模型来处理故障检测中不同种类的随机性和不确定性是可取的。一个有效的解决方法是利用证据推理(ER),将能够解决随机性和不确定性的方法结合起来。

在过去的20年里,证据推理理论得到了广泛的研究和发展,在多准则决策、故障检测、状态评估等多个领域得到了成功的应用。一般来说,该理论的发展可分为三类:

  • 从不同类型的信息到证性结构的转换。为了有效处理定量信息和定性信息,学者们提出了一系列的方法来实现转化。在【2006,王应明、杨剑波,The evidential reasoning approach for multiple attribute decision analysis using interval belief degrees】中,提出了一种基于规则和效用信息的方法,可以将语义层次、区间值形式描述的定量信息和定性信息,转化为确定性结构。在前人研究的基础上,Sonmez M【2007,Data transformation in the evidential reasoning-based decision making process,】针对不同情况提出了三种新的转换方法。
  • 证据推理的理论延伸。 杨剑波【2002,On the evidential reasoning algorithm for multiple attribute decision analysis under uncertainty,】提出了证据推理应满足的四个公理,并进一步提出了一种新的证据推理方法,即递归证据推理算法。考虑到精确可靠性的局限性,王应明【2006,The evidential reasoning approach for MADA under both probabilistic and fuzzy uncertainties】在规则和信息转换方法的基础上,提出了区间值的确证结构。在【2013,杨剑波,Evidential reasoning rule for evidence combination】中,在D-S理论的可靠性分布中加入权重,给出了一种具有权重和可靠性的证据推理算法。
  • 证据推理与信念规则库(BRB)的结合。 为了充分利用决策者和专家的知识和经验,一些研究将证据推理与信念规则库相结合。杨剑波【2006,Belief rule-base inference methodology using the evidential reasoning approach–RIMER】利用证据推理方法提出了一种信念规则库推理方法。后来,刘军【2012,An new belief rule base representation scheme and its generation by learning from examples】、【2013,A novel belief rule base representation, generation and its inference methodology】提出了前提属性和结论都不确定的扩展信念规则库。

经过对大量文献的梳理,可以发现,使用模糊集理论、BRB和ER解决故障检测问题是可行的。为此,在Atanassov区间值直观模糊集(AIVIFSs)、BRB和ER的基础上,提出了一种新的故障检测模型,这种模型具有较强的可解释性和透明性。虽然有一些学者对其进行了研究[24]-[26],但基本上有两个不足之处。

  • 1)到目前为止,几乎所有的相关研究都采用了Atanassov的直觉模糊集(AIFSs),但与Atanassov区间值直观模糊集(AIVIFSs)相比,AIFSs在表示不确定信息方面仍有很多局限性。
  • 2)在计算过程中,这些研究中采用的得分函数和计算相似度的方法存在缺陷,没有提出改进的方案。因此,其结果不能被普遍接受,也没有说服力。

本文的目的是结合AIVIFSs、BRB和ER,设计一种新的故障检测模型来克服上述缺陷。

本文的主要贡献为:

  • 1)采用了Atanassov的区间值直觉型模糊集、信念规则库和证据推理,建立故障检测模型。
  • 2)在提出的模型中,证据推理的关键步骤是获得AIVIFS之间的相似性。 在分析了前人的研究后,我们提出了一种基于内涵运算符的新方案,可以有效地解决之前的不足之处。
  • 3)考虑到得分函数对最终结果有着至关重要的影响,提出了一种新的基于p-norm的AIVIFSs的得分函数,并由本文中的公式严格推导。
  • 4)首先将提出的模型应用于处理FADS系统的故障检测问题。与传统检测方法不同,如基于奇偶性方程的方法和基于卡方检验方法,本文提出的新模型可以更好地表达随机性和不确定性。

 

2.嵌入式大气数据传感(FADS)系统

现代飞行器的髙性能给现代的飞行控制系统提出了更高的要求,而飞行控制系统能够达到标准的·个重要的前提就是对大气数据的痄确测量。有了精确的、实吋性强的大气数据,现代飞行器的控制才能得到最有利的保障。

大气数据包括来流的静压、动压、高度、髙度偏差、高度变化率、指示空速真空速、马赫数、马赫数变化率和大气密度等参数。这些参数应用于飞行器的导航系统,控制系统、驾驶仪表显示系统、警告系统、火控系统等。

传统的测量大气数据的系统是以探针式为基础的,其中包括空速管、迎角传感器、侧滑角传感器等。在对飞机性能提岀越来越高要求的情况下,探针式大气数据系统在一些方面已经无法满足性能要求。

嵌入式大气数据传感(Flush Air Data Sensing,FADS)系统是采用嵌入在飞行器前端周线不同位置上的压力传感器阵列,来测量飞行器表面的压力分布,通过模数转换将压力值传送到计算机,通过其内部的算法计算和校正得到最终的大气数据,最后将其传送给飞行器的各个系统。FADS系统依靠压力传感器来测压,传感器嵌入在飞行器表面,其可靠性、维修性、生存性和隐身性较传统探针式大气数据系统有很大的优势。

FADS系统的算法有很多,包括三点法、最小二乘法、五点法、查表法等。对于FADS来说,测量迎角值α的方法称为''三点法'',主要依靠编号为1、3、5、6的四个测量点。测量点的基本布局如图1所示,其中φ和λ分别代表圆周角和圆锥角。

image3be58782293f8eb3.png

工作时,通过压力传感器获取4个测量点的压力值,然后选取3个压力值按照算法进行计算,得到 得到α1、α2、α3和α4四个值。比如分别由(1,3,5)、(1,3,6)、(1,5,6)和(3,5,6)组合计算得出;最后,将这些结果的平均值作为期望迎角。

但该传感器通常应用于一些高性能飞机,由于表面温度较高,测量点容易出现故障,产生不准确的读数。针对这种情况,提出了一种新的基于Atanassov区间值直观模糊集(AIVIFSs)和信念规则库(BRB)的故障检测模型,其主要思想是利用AIVIFSs描述α1、α2、α3、α4的分布规律,然后建立BRB模型来判断FADS系统是否出现故障以及哪些测量点有故障。故障检测模型可表示:

 

参考自:嵌入式大气数据传感系统算法及应用研究 - jz.docin.com豆丁建筑

 

3.ATANASSOV区间值直觉模糊集及其相关概念

【定义1,Atanassov的区间值直观模糊集】设 X={x1,x2,--- ,xn} 是固定值,hθ(x) ∈H = {hj |j = 0,1,--- ,2t,t∈N ∗ }是一个语言术语集。一个Atanassov的区间值直观模糊集 A 定义为:

其中,

  • 表示元素 x 对 A 的区间值隶属度;隶属度越接近于1,表示x属于A的程度越高。
  • 表示元素 x 对 A 的区间值非隶属度;非隶属度越接近于1,表示x不属于A的程度越高。
  • 表示元素 x 对 A 的区间犹豫不决度;

 

【定义2,Atanassov的区间值直观模糊集的数学运算】给定两个AIVIFSs,,A和B的数学算符可以总结如下:

image.png

【举例1】假设 A = ([0.5, 0.6], [ 0.1, 0.2]) 、B =([0.65, 0.7], [0.05, 0.18]),那么:

48cb1eecf1f9b5d9d5ebe1c664dc5924.png

 

【定义3,Atanassov的区间值直观模糊集的相度性满足约束】假设A,B,C是三个AIVIFSs,如果 S(A,B) 表示 A 与 B 的相识度,那么满足以下条件:

【定义4,Atanassov的区间值直观模糊集的相度的计算】假设A,B是两个AIVIFSs,那么一些经典的计算相似度的方法有:

  • 来自【2007,Approach to group decision making based on interval–valued intuitionistic judgment matrices】论文中的基于归一化汉明距离的相似性度量方法

  • 来自【2008,Dynamic intuitionistic fuzzy multi-attribute decision making】论文中的基于归一化汉明距离的相似性度量方法

  • 来自【2019,Long short-term memory neural network based fault detection and isolation for electro-mechanical actuators】论文中的基于归一化欧氏距离的相似性度量

  • 来自【2018,Study on similarities and its application in intuitionistic fuzzy sets, interval-valued intuitionistic fuzzy sets】论文中的基于欧氏距离的相似性度量

然而,上述方法的共同缺点是只使用一个特定的数来表示相似度,而没有分别考虑隶属度和非隶属度。比如,给定三个AIVIFSs为 A = ([0, 1], [0, 1]),B1 = ([1,1], [0, 1] ) ,B2 = ([0, 1], [1, 1] ),按公式(2)计算就有 S1(A, B1) = S1(A, B2) 。但很明显,S1(A,B1)是由于隶属度的不同而获得的;对于S1(A,B2),非隶属度的差异是主要原因。另外,既然是区间值模糊集的相似度,比较合理的方法是利用区间来描述。因此,本文提出了一种衡量AIVIFS之间相似度的新方法,并证明新方法满足定义 3 的约束。

 

【定义5,本文提出的Atanassov的区间值直观模糊集的相度的计算】假设A,B是两个AIVIFSs,那么两者的相似度定义为 ,其中:

【举例2】假设 A = ( [0.5, 0.6], [ 0.1, 0.2])、B = ([0.65, 0.7], [0.05, 0.18]),那么用定义 4 中的经典计算方法和定义 5 中本文提出的计算方法计算两者相似度为:

除上述概念外,为了量化AIVIFSs中包含的信息,专家们提出了得分函数和准确度函数的概念。在这里,我们列举了一些前人的研究成果。

 

【定义6,Atanassov的区间值直观模糊集的得分函数和准确度函数的计算】假设 A 是一个AIVIFSs,那么一些经典的计算得分函数和准确度函数的方法有:

  • 来自【2018,Additively consistent interval–valued intuitionistic fuzzy preference relations and their application to group decision making】

    该方法存在信息遗漏的缺点,即对隶属度和非隶属度的上下界利用不足。

  • 来自【2013,A new scoring function of interval-valued intuitionistic fuzzy number and its application in multi-attribute decision making】

    该方法的问题是只要隶属度和非隶属度的中点重合,得分函数总是0,这显然是不科学的。

  • 来自【2016,A new generalized improved score function of interval-valued intuitionistic fuzzy sets and applications in expert systems】

    其中,参数 k1+k2=1。该方法的缺点是,只要 为 0 ,就固定输出 0 。

 

为了克服上述方法的不足,本文提出了一种基于p-范数的评分函数。

【定义8,本文提出的Atanassov的区间值直观模糊集的得分函数和准确度函数的计算方法】假设 A 是一个AIVIFSs,那么本文定义的计算得分函数 为:

tttttt2e3496614846fb9d.png

tttttt98c78cfc933bb4dd.png

【举例3】给定 A = ( [0.5, 0.6], [ 0.1, 0.2]),那么用定义 6 中的三种得分函数计算方法和本文提出的得分计算方法,计算的结果为:

 

 

参考自:直觉模糊集隶属度与非隶属度函数的确定方法 - 百度文库

 

4.确定性结构的证据推理

在建立模型的过程中,主要算法是基于证据推理的。与以往的研究不同,本文主要研究了AIVIFSs形式的证据推理。 Ψ 的确信度被定义为: ,比如说,如果 Ψ 的确信度为 100%,那么 ,反之,如果 Ψ 的确信度为 0,那么

【定义9,确定性结构】假设由事例 和确定度 组成的确定结构代表第 个证据, 的权重向量,那么确定结构的证据集为:

对于第 l 个证据 ,基本概率质量满足以下公式:

其中 ,

其中,识别框架 ,识别框架的幂集为,其中∅为空集,θ为案例。式中 表示 ∅ 对案件θ没有影响; 表示由证据集 赋予的分配确定度;表示由证据集 赋予的未分配确定度; 表示证据 的赋予的未赋值不确定度。

假设 表示了前 t 个证据; 表示由前 t 个证据合成得到的基本概率质量; 表示由前 t 个证据合成的的未赋值的确定度; 表示由前 t 个证据合成的未赋值不确信度。

  • 当 t = 1时:

    其中,

  • 当 t∈{2,……,T} 时,

    其中,image79c2c1caf2cb7747.png

    其中,

    其中,

综合所有的 T 个证据,得到案例 θ 的确定度:

其中,image6bc1910ab7916f83.png

 

5.置信规则库的推理方法

关于FADS故障检测问题,由于测量噪声的存在,信号倾向于波动。在FADS故障检测问题上,由于测量噪声的存在,信号倾向于波动,很少有相关的方法能够表达随机性和不确定性。为了解决这个问题,将BRB和AIVIFS结合起来描述不确定信息。

 

【定义11,AIVIFSs形式的BRB模型】在AIVIFSs形式的BRB模型中,第 k 条规则定义为:

da7ea383752a50f3955eadf9591f659f.png

其中,fad2ddb55a6f24ef0c2b060a90c59562.png

  • 表示前件属性值 Xi 为参考值 Ai的区间值直觉确定度集;特别的,如果 Ai 为∅时,那么
  • 表示后件属性值 Yi 为参考值 Ci 的区间值直觉确定度集;特别的,如果 Ci 为∅时,那么
  • 表示第 k 条规则 的确定度;

进一步的,第 k 条规则可以 简写为:

77341c90409a53143b90dcf8e918f034.png

可以看出,一个BRB中共有 条规则。然后一条规则中,有 个前件属性,有 个后件属性评估等级。

 

【定义12,证据推理方法】假设一个输入为:

其中,

先将第 k 条规则的 个前提属性的区间值确信度合成:

其中,521f0367e52fa358eeed973bf4798504.png

其中,属性权重

再得第 k 条规则的激活区间权重:

其中, 表示 个前提属性的区间值确信度合成; 表示第 k 条规则的确定度;

第 k 条规则的区间权重为:

 

利用定义9推导出基本的可移植质量公式:

0fa72013f3ddb12f850ec2191968b72f.png

其中, 4bbbb0245cf811a5c86143250c65e8ea.png

tttttt.png

其中,tttttt6112d7685e913fe1.png

tttttt7c776863e0fb5549.png

其中,tttttte03e7c8a7c854826.png

其中, 表示由第 k 条规则引起的赋值基本概率质量;表示由第 k 条规则引起的未赋值基本概率质量; 表示由第 k 条规则的激活区间值权值引起的未赋值基本概率质量。

 

同样的有:

image.png

其中,表示由引起的赋值基本概率质量;表示由引起的未赋值基本概率质量;表示由的激活区间值权重引起的未赋值基本概率质量。

 

结合证据的不确定性,得到综合概率质量:

,其中

image350a34823f2dea60.png

其中,

最后,将综合概率质量转为区间确定度:

其中,

 

根据输入数据、综合的区间确定度和定义5所示的方法,得到结论属性的区间值直觉置信度:

先计算得

再计算得:

最终,第 j 个结论属性:

 

6.算法过程

本节提出了一种基于AIVIFSs、BRB和ER的算法来解决故障检测问题:

step1:获取属性权重向量 。 通常,属性权重根据不同属性的重要性给出的,前提属性越重要,其权重越大。

step2:确定输入数据是否匹配 IRk 规则。如果,则输入与规则 IRk 匹配,IRk被成功激活。

step3:比较AIVIFS之间的相似性。使用定义5获得表示输入的AIVIFS和表示前提属性的AIVIFS之间的相似度。

假设A,B是两个AIVIFSs,那么两者的相似度定义为

 

step4:获得属性的确认度 。利用定义12来获得。

输入数据为 ,其中

属性权重为

先计算得

最终,属性的确认度为:

 

step5:计算第 k 条规则的激活权重 和第 k 条规则权重 。利用定义12来获得。

激活区间权重

规则权重

其中, 表示 个前提属性的区间值确信度合成; 表示第 k 条规则的确定度;

 

step6:获得后件属性的综合确定度。结合证据不确定性,得到综合概率质量 。利用定义12来获得。

,其中

image350a34823f2dea60.png

其中,

 

step7:获得输入条件下结论属性的确证度。利用定义12来获得。

其中,

根据输入数据、综合的区间确定度和定义5所示的方法,得到结论属性的区间值直觉置信度:

先计算得

再计算得:

最终,第 j 个结论属性:

 

step8:确定最终的故障检测结果。利用定义8中提出的得分函数对结论属性进行排序,然后,将得分最高的结论属性作为最终结果。

 

 

7.样例分析

7.1 数据设置

第六节介绍的方法应该付诸实践,因此,假设在FADS故障情况下,验证该方法的可行性。假设实际攻角αa为5°;经过多次测试,收集并汇总正常情况下的所有测量数据,结果如图2所示。我们可以看到,由于测量噪声的存在,α1、α2、α3、α4在合理范围内波动。另外,从图中可以看出,α2和α3与实际值αa相差较远,测量精度不如α1和α4,因此,我们设置属性权重W={w1,w2,w3,w4}={0.3,0.2,0.2,0.3}来表示差异。

首先,设域 d1=[-2°, 1°],d2=[1°, 4 °],d3=[4°, 7°],d4=[7°, 10°],d5=[10°, 13°],这些都是主观给出的,不会影响结果。

然后,可以获得前提属性数据。一旦测量点出现故障,所有的测量结果都会出现异常。鉴于故障情况很多,为了证明所提出的模型的可行性,分析了四种典型的故障情况。1)测量点1故障;2)测量点3故障;3)测量点1和测量点5故障;4)测量点3和测量点6故障。

  • 测量点1故障:α1=<d3,[0.5, 0.6],[0.3, 0.35]>,α2=<d2,[0.55, 0.6],[0.3, 0.4]>,α3=<d5,[0.51, 0.54],[0.4, 0.45]>,α4=<d2,[0.55, 0.63],[0.32, 0.4]>。
  • 测量点3故障:α1=<d3,[1,1],[0,0]>,α2=<d3,[1,1],[0,0]>,α3=<d4,[0.6,0.65],[0.3,0.41]>,α4=<d3,[1,1],[0,0]>。
  • 测量点1和测量点5故障:α1 = <d3, [0.9, 0.96], [0, 0.07]>, α2 = <d2, [0.64, 0.7], [0.27, 0.35]>, α3 = <d5, [0.59, 0.65], [0.4, 0.5]> ,α4 = <d2, [0.8, 0.9], [0.1, 0.15]>。
  • 测量点3和测量点6故障:α1 = <d3, [0.6, 0.7], [0.1, 0.22]>, α2 = <d2, [0.78, 0.84], [0.12, 0.18]>, α3 = <d5, [0.65, 0.76], [0.2, 0.3]>,α4 = <d2, [0.8, 0.85], [0.07, 0.12]>。
  • 正常情况:α1 = <d3,[1,1],[0,0]>,α2=<d3,[1,1],[0,0]>,α3=<d3,[1,1],[0,0]>,α4=<d3,[1,1],[0,0]>。

确定这些区间下界和上界的方法大致经过两步:分析域d1、d2、d3、d4、d5中所有测量数据的比例,得到一个具体的比例值;然后,在多次检验和一般理解的基础上,将比例值扩展为区间形式,以表达随机性和不确定性。与之类似,可以得到结论属性的下界、上界以及确证度。可以构建AIVIFS形式的BRB模型,如表1所示。

 

7.2 一定输入下的仿真结果

为了说明该方法的流程和合理性,将根据某项输入进行举例说明。假设输入={α1=(d3,[0.7,0.75],[0.1,0.2]),α2=(d2,[0.65,0.7],[0.2,0.25]),α3=(d5,[0.55,0.62],[0.34,0.39]),α4=(d2,[0.78,0.81],[0.08,0.09])}。

第一步:获得属性权重向量wi。 根据测量精度得到了权重向量,w1=0.3,w2=0.2,w3=0.2,w4=0.3。

第二步:判断输入是否符合规则 IRk 。 对于输入,{a1,a2,a3,a4}={d3,d2,d5,d2},与规则IR1 ,IR3 ,IR4的前提属性相同;因此,认为输入成功匹配三个规则

 

第三步:比较AIVIFS之间的相似度。 通过定义5得到规则IR1 ,IR3和IR4的输入和前提属性之间的相似度。

image1d07465e1883cb05.png

 

第四步:获得前件属性的确认度

 

第五步:计算第 k 条规则的激活权重 和第 k 条规则权重

image7ca10a74c08d5830.png

 

第六步:获得后件属性的综合确定度

 

第七步:获得输入条件下结论属性的确证度

 

第八步:确定最终的故障检测结果。 利用提出的得分函数,我们可以得到

因此按照得分排序,得到

 

7.3 前提属性下的仿真结果

与上述方法不同的是,我们选择前提属性作为输入,以确定计算结果是否与BRB模型中的结论一致。

  • 测量点1故障:
  • 测量点3故障:
  • 测量点1和测量点5故障:
  • 测量点3和测量点6故障:
  • 正常情况:

通过使用建立的模型,得到各结论在不同输入下的得分,如表2所示。

image95235d1dfc05a369.png

我们举个例子来解释这个表。当输入为Input1时,前提属性不符合规则IR2和IR5 。因此,这两条规则的得分为0。那么,利用BRB模型,可以分别得到IR1 ,IR3 ,IR4三条规则的得分。其余情况与此类似。可以发现,在BRB模型中,5个输入的结论属性的排名是相同的,这说明建立的模型在一定程度上是合理的

 

7.4 实际情况下的数值模拟结果

为了进一步证实该模型解决FADS系统故障检测问题的可行性,我们进行了数值模拟。在本案例研究中,实际攻角αa=5 ◦,采样频率为50Hz,四个测量龙头的噪声方差相同,为40。

从图4中可以看出,在前5秒内,四个测量龙头的压力在合理范围内波动。但在第5秒时,分接头3和分接头6出现故障,其读数降低了2000[Pa],其余测量分接头仍正常。

image907a05acdf347902.png

结果参数α1、α2、α3、α4如图5所示,从图中可以看出,在前5秒内,测量结果保持正常;但由于分接头3和分接头6的故障,后续测量结果出现异常。

image38f50953afe6c6e0.png

首先,将α1、α2、α3、α4的全部采样点分别分为50组,取10个采样点作为一组数据。然后,应用上述同样的方法描述每组数据的分布规律。 最后,用提出的模型计算这些数据的得分,结果如图6所示。我们可以看到,在前25组数据中,IR5的得分总是等于1,这是因为Input的前提属性是{d3,d3,d3,d3},只有IR5被成功激活。 因此,在前5秒,系统是正常的。 在后25组数据中,IR1的得分始终是最高的,它显示分接头3和分接头6在第5秒时出现故障,这与实际故障类型一致。

image.png

 

7.5 比较研究

为了说明所提出的模型的合理性,将与FADS系统中其他两种最广泛使用的故障检测方法[36]、[37]进行比较。比较分析是基于同样的说明性例子。

1)对等式方法

对于本例,奇偶方程的数值如图7所示。很明显,在前5秒内,数值在0左右波动,当分接3和分接6故障时,数值出现异常。可见,-100是作为监测阈值的可取选择,它能够区分正常状态和故障状态。

image39669d40787a95c1.png

 

2)卡方 χ2 分布方法

如图8所示,chi-square值总是小于7.78,说明系统在前5秒是正常的。然后,chi-square值不正常,系统被检测为故障。根据测试过程,我们将所有的测量分接头逐一排除,图9是将分接头3和分接头6都排除后得到的齐方值。可以看出,数值恢复正常,系统没有故障,说明这两个分接头在第5秒时出现故障。

image1969be19ad7b5e7a.png

根据以上研究,很明显,奇偶方程法、χ 2分布法和所提出的方法都是适用的,但对于FADS系统,众所周知,会有各种因素产生测量噪声,包括温度、湿度甚至空气密度。但是,众所周知,对于FADS系统来说,会有各种因素产生测量噪声,包括温度、湿度、甚至空气密度。噪声的方差是随机变化的,其值可能很大。因此,我们考虑比较这三种方法在面对不同方差的噪声时的精度。

  • 对于奇偶方程法来说,当方差增大时,在正常和故障情况下,奇偶方程的值会以较大的幅度波动。 例如,当方差等于90时,奇偶方程的值如图10所示,我们可以看到,通过设置合适的监测阈值,是无法区分两种情况的。所以,当噪声的方差比较大时,该方法就不适用了。
  • 众所周知,一系列数据的稳定性与方差呈负相关,即方差增大时,数据的稳定性降低。而当采用χ 2分布法时,当测量噪声增大时,描述压力残差异常值的概率必然增大,这就会导致残差归一化后的平方和不是特别符合χ 2(4),影响检测精度。总之,这些方法不能充分表达测量噪声带来的随机性和不确定性。
  • 与上述两种方法不同的是,本文所提出的方法倾向于应用AIVIFSs和BRB来总结数据的分布规律,而不是集中在一个点上。换句话说,这种方法较好地反映了故障检测问题的随机性和不确定性,因此,即使方差增大,这种方法也不会受到很大影响。

 

8.结论

本文介绍了一种FADS系统的故障检测模型。总的来说,本文针对现有的研究做出了四点贡献。

  • 首先,提出了一种计算AIVIFSs之间相似度的新方法。
  • 在此基础上,提出了一种新的衡量AIVIFSs所包含的信息的得分函数。
  • 然后,将 Atanassov’s 区间值直观模糊集、信念规则基础和证据推理相结合,表达故障检测问题的随机性和不确定性。
  • 最后,首先将所提出的模型应用于处理重要机载传感器FADS系统的故障检测问题。

为了验证所提出的方法的有效性,对已经成功应用于解决同一问题的其他两种方法进行了综合比较分析。在今后的研究中,我们将考虑将BRB模型与其他人工智能算法相结合。

 

【论文阅读】A belief rule-based evidence updating method for industrial alarm system design

【论文阅读】A belief rule-based evidence updating method for industrial alarm system design

DOI:10.1016/j.conengprac.2018.09.001

作者:徐海洋、通信作者徐晓滨(杭州电子科技大学自动化学院)

年份:2019

 

本文主要是侧重报警器数据转换和报警器模型,有关BRB的部分较少。

但是本文的有些地方值得学习:

  1. 用Sigmoid型隶属函数转换观测数据
  2. 使用 DS 理论融合报警证据
  3. 在证据融合时,每个证据需要分配权重,之前是使用线性模型,而本文引入BRB系统,实现报警证据支持度(输入)与融合权重(输出)之间的非线性模型,使得融合后的证据能更精确。

 

 

基于置信规则的证据更新工业报警系统

 

1.介绍

本文提出了一种基于置信规则的证据更新方法。

首先,针对过程变量在转换成报警证据的过程中会存在信息缺失的问题,利用连续型的模糊隶属函数来替代分段式的模糊隶属度函数实现转换,这样有效的减少了过程变量信息的缺失。

然后是基于置信规则推理的多阶证据更新滤波报警器设计。

再有就是,以往的证据更新滤波报警器在融合当前和历史报警证据时,融合权重是通过报警证据间的线性关系求解的,但是这种线性关系不能完全刻画报警证据随时间变化的复杂规律。因此引入置信规则库推理方法,构建报警证据支持度(输入)与融合权重(输出)之间的非线性模型,优化置信规则库的相关参数,使得规则库对输入与输出之间的非线性关系描述的更加精确。

 

2.DS证据理论

(1)概率分配函数

为样本空间,那么其内所有子集表示为 ,那么概率分配函数( mass函数)定义为如下的一个映射:

其中 表示中任意一个子集的基本概率设置(BPA)

若样本空间有n个独立元素,那么D的子集就有个,这就是为什么用表示所有子集;

概率分配函数实际上就是将信任度1分配给 的各个子集,表示子集d分配到的信任度。

(2)信任函数Bel

命题的信任函数定义为如下的一个映射:

Bel 函数又称下限函数,Bel(B) 表示命题对 B 为真的信任度

举个例子,

(3)似然函数Pl

命题的似然函数定义为如下的一个映射:

Pl函数又称上限函数,表示对命题 B 为假的信任程度

信度函数Bel和似然函数Pl存在关系:表示为的补集

(4)Dempster合成

Dempster合成规则正是用来将多个主体的输出结果相结合的关键步骤。

Dempster合成规则是一种联合的概率推理方法,它是非补偿的,也就是说:如果任意一条证据否定了某个基本假设,不管其他证据以多大信度支持该基本假设,合成结果将完全否定该基本假设.

假设现有两条独立证据m1和m2,将两条证据合成,其公式:

其中,归一化系数

(5)线性证据更新

…………,Kulasekere等人而给出了条件化线性证据更新规则: ,其中α和β表示权重。

 

 

3.时间递归的二阶证据更新滤波报警器设计

3.1 基于分段型模糊隶属度函数的报警证据获取

按照时间周期进行采样,得到采样离散值 x(t)。报警器在工作中有两种工作转态,即正常NA(未警报)和异常A(警报)。使用模糊隶属度函数得到观测值对警报的置信度μ(A) 和对未警报的置信度 μ(NA) ,计算方法如下:

上式中的 分别为模糊隶属度函数上下阈值。右图为式子的函数图像。表现出的含义是:当观测值 xt 大于上阈值时,100%确认有警报;当观测值 xt 在上下阈值之间,有可能有警报。

这里定义,将 μ(A) 和 μ(NA) 归一化后,得到对 x(t) 的报警证据:

但是这种基于模糊隶属度函数的报警证据获取是存在缺点的。比如,当上下阈值为(0.5,1.5)时,观测值为 x1 = 2.5 得到的报警证据为<m1(A)=1,m1(NA)=0>,观测值为 x2 = 1.6 得到的报警证据为<m2(A)=1,m2(NA)=0>,尽管他们的观测值不同,但是报警证据一样。

从这例子可以看出,线性分段的半梯形函数不能描绘 x(t) 在不同值之间的微小差异,使得转换的报警证据 m 不能包含 x(t) 的完整信息。

 

3.2 二阶证据更新报警器设计

在工业实际中,采集到的过程变量是关于时间的一个采样序列,因此可以将线性更新规则推广到具有时间标签的二阶更新融合规则:

报警证据 融合了前t-1 时刻的报警证据和当前 t 时刻的报警证据;最终的,根据全局报警证据 即可做出决策:.

其中αt 和 βt 分别表示对 t-1 时刻证据的权重和 t 时刻的条件证据 m(B|D) 的权重。 两个权重 αt 和 βt 的计算使用了 Jousselme证据距离

证据 mi 和 mj 的相似度 Sim(mi, mj) 计算为:

,其中

显然,当证据距离越大,证据的相似度越小,反之,证据相似度越大。

那么,得到证据 mi 的支持度为 .

因此,权重 αt 和 βt 的计算为:

,其中

显然由上式可知 α>β,即历史证据的重要性一般大于当前所获证据。

 

3.3 报警器的性能指标计算

报警器的性能用误报率FAR、漏报率MAR、平均报警延迟时间来衡量。

过程变量采样值 xt 大于阈值时会发出警报;反之,不会发出瞥报。但是在实际生产环境下,由于受环境、传感采集设备以及阈值选择等因素的影响,会异致出现一定的漏报和虚报的现象。假设采集到的一段过程变量为 {x1,x2,...,xh},经过统计得到下面这段时间报警器工作模式的表格:

根据表中数据,得到误报率(FAR)和漏报率(MAR)的定义如下:

 

 

4.时间递归的多阶证据更新滤波报警器设计

在获得报警证据时,要使获得的证据尽可能的反应现实生产工况,这就要在信息融合的过程中融合更多有用的信息。

目前,对于复杂工业的报警监控系统,还是沿用着最基本的“直接门限法”的报警器设计方法,在设置好初始阈值下,当过程变量超过阈值,就会发出警报;反之,不会发出警报,这种简单的报警器对环境的依赖比较大,受环境等因素影响比较多,因此具有很大的局限性。

文献[19]给出的基于证据更新的报警器设计方法,利用模糊隶属度函数将过程变量变换为报警证据,然后通过证据更新融合历史和当前的报警信息,获得了比传统报警器设计方法更为优良的性能结果。但是,在过程变量转换成证据的过程中,会出现信息的缺失,而且得到的报警证据不能携带过程变量所有的信息,针对这个问题本章首先引入连续性的模糊隶属度函数

此外,上一章所提出的二阶证据滤波报警器所具有的优越性己在文献[19]详细的陈述,归结其原因是融合了当前 t 时刻的报警证据和 t-1 时刻的全局报警证据,这使得当前的全局证据信息更加的稳定和可靠,更能真实的反映现实生产工况。随着对此问题的深入研宄,在本章将二阶的报警器推广到多阶

 

4.1 使用连续型模糊隶属度函数的报警证据获取

Sigmoid(S)函数作为激活函数已被广泛的应用在祌经网络中,因为它具有一些优良的特性,包括单调递增、连续可导性和简单的计算形式,它可以将任何的实数映射到区间[0,1]中。

使用 Sigmoid(S) 型模糊隶属度函数得到观测值对警报的置信度μ(A) 和对未警报的置信度 μ(NA) ,计算方法如下:

其中 是阈值,a 可以取任意值。右图为式子的函数图像。

同样,这里定义,将 μ(A) 和 μ(NA) 归一化后,得到对 x(t) 的报警证据:

任然用上面的例子,当阈值为 1,a为6时,观测值为 x1 = 2.5 得到的报警证据为<m1(A)=0.9999,m1(NA)=0.0001>, 观测值为 x2 = 1.6 得到的报警证据为<m2(A)=0.9734,m2(NA)=0.0266>,很明显,x(t)的任何细微变化都可以在证据转化的过程中体现出来。

 

4.2 多阶证据更新报警器设计

(1)将二阶更新融合规则推广到多阶(三阶)线性证据融合的报警器设计中,可得:

其中 ι 和 ν 表示的是融合权重, λ 和 γ 表示条件信度权重。

(2)λ 和 γ 的求法:

如果 $m{1,t-2}(A)≥m{1,t-2}(NA),

如果

(3)ι 和 ν的求法

其中

 

4.3 性能对比

………………

 

5.基于置信规则库的报警器设置

上一章中在融合历史和当前报警证据时使用的是线性模型。该种融合方法尽管物理意义明确、简单易行,但是面对过程变量复杂的变化过程,这种固定的线性权重分配方法缺乏一定的灵活性,也缺少专家的指导和参与。

本章引入了置信规则库(BRB)推理系统,该系统能够利用所积累的数据和专家知识建立证据支持度(输入)和融合权重(输出)之间的非线性映射模型。

5.1 BRB规则

……

 

5.2 ER推理

……

 

5.3 报警器案例的BRB模型和优化

在第三章和第四章给出了线性证据更新报警器设计中证据更新融合权重的求法,可以看出融合权重与支持度之间是线性的关系。

现在使用BRB模型,构建了置信规则库输入量(支持度)和输出量v(融合权重)的非线性关系。

三个前件属性:,每个属性分别设置4个引用值。

一个后件属性:融合权重 v,设置4个引用值。

结果输出:

总共有 S 个观测值,其中从传感器获得观测值,再用4.1介绍的方法转换为观测输入值;因为只能观测到警报器是报警还是未报警,因此观测输出值设定为理想值(报警理想值 ,未报警理想值

优化模型的目标函数为: ,其中 是观测输出值, 是系统估计值。

 

5.4 工业报警器案例

这是优化后的模型

使用表中第 35条规则到39条规则的数据(系统输出),得到

…………(本模型的性能指标)

本模型和其他方法的对比

 

5.5 管道泄漏检测案例

…………

 

6.总结

 

 

 

参考了作者的硕士论文:徐海洋. (2019). 基于置信规则推理的证据更新滤波报警器设计. (Doctoral dissertation).

【论文阅读】Compact Belief Rule Base Learning for Classification with Evidential Clustering

【论文阅读】Compact Belief Rule Base Learning for Classification with Evidential Clustering

DIO:10.3390/e21050443

作者:焦连猛(西北工业大学自动化学院)

年份:2019

 

基于证据聚类的紧凑的BRB分类系统

在大数据集分类问题中,样本和特征大量存在,会形成一个较大的BRB分类模型,从而降低了模型的可解释性和分类准确性。因此本文提出了一种基于证据c -均值(ECM)聚类算法的BRB学习方法,有效地设计了一个紧凑的BRB分类系统。本文的主要贡献:

  1. (数据集)利用ECM算法对训练集进行划分,获得良好的簇间可分性和簇内纯度;
  2. (构建方法)基于上一步训练集的信任划分,提出了一种系统的信任规则构造方法;
  3. (训练方法)设计了一种基于均方误差和证据划分熵的双目标优化方法,得到了一个既保证准确性又保证可解释性的紧凑BRB。

 

1.BRB分类系统

BRB系统的规则为:

传统的构建BRB系统的方法:在【Jiao, L.; Pan, Q. Belief rule-based classification system: Extension of FRBCS in belief functions framework】一文中提出了一种基于特征空间模糊网格划分的启发式BRB学习方法:

step1:特征空间划分。采用基于模糊网格的方法将 M 维特征空间划分为 个模糊区域,Ji为第 i 个特征(前提属性)的引用值个数。

step2:生成每个模糊区域的结果类。将每个训练模式分配到匹配度最大的模糊区域,并将分配到同一模糊区域的模式进行融合,得到相应的结果类。

步骤3:生成规则权重。规则权重由置信度和支持度两个度量共同确定。

一旦生成了BRB,就用证据推理方法结合所有激活的置信规则的后续部分对查询模式进行分类。

 

2. 证据理论C均值(ECM)

2008年 Masson 利用 DS(Dempster-Shafer)证据理论对模糊C均值(fuzzy C-mean,FCM)算法进行改进,提出了证据理论C均值(evidential C-mean,ECM)算法。【Masson. ECM: An evidential version of the fuzzy c-means algorithm. Pattern Recognit.】

证据理论C均值(ECM)算法最大的特点是可以产生新的类别,对于不确定性的分割更准确,用于解决观测数据中存在的不精确和部分信息。通过给训练集的信任分割来构造信念规则,可以大大减少生成规则的数量。

 

2.1 DS(Dempster-Shafer)证据理论

(1)概率分配函数

为样本空间,那么其内所有子集表示为 ,那么概率分配函数( mass函数)定义为如下的一个映射:

其中 表示中任意一个子集的基本概率设置(BPA)

若样本空间有n个独立元素,那么D的子集就有个,这就是为什么用表示所有子集;

概率分配函数实际上就是将信任度1分配给 的各个子集,表示子集d分配到的信任度。

(2)信任函数Bel

信任函数定义为:

Bel 函数又称下限函数, 表示对 B 为真的信任度,它是B的所有子集合含有的基本分配概率之和。举个例子,

(3)似然函数Pl

似然函数定义为:

Pl函数又称上限函数,表示对 B 为真的信任程度,它是可能分布在B中元素的基本分配概率的总值。

信度函数Bel和似然函数Pl存在关系:表示为的补集

 

2.2 证据理论C均值聚类方法

ECM聚类算法是在信任分割基础上提出来的。信任分割是假设有 n 个对象 ,可以分为 C 个类别 。每个对象 的类隶属度的不完全知识用基本概率分配函数 来表示, 为关于n个对象 O 的信任分割。

ECM聚类算法模型(目标函数和约束条件):

  • 表示样本 对于命题 的置信值,即
  • 表示鉴别框架Ω中的一个子集(Aj ⊆ Ω)。比如4.1节的表格所示,当时,命题
  • 表示样本 与命题 的类别中心 间的欧式距离, .
  • 表示命题 的类别中心, 其中
  • 表示命题 中元素的个数,即 .
  • α ≥0 人为定义,表示控制子集 Ω 惩罚度的权重,必须大于等于0;
  • β>1 人为定义,表示控制分区模糊性的权重,必须大于等于1;
  • δ>0, 和NC算法中的定义一样,控制被认为是离群值的数据的距离, .

这个目标函数值越小,那么聚类效果越好。为了使ECM算法的目标函数最小化,提出了相应的优化算法(和FCM算法类似,也是通过两步交替迭代),详细步骤为:

  • 输入数据:假设有 N 个样本

  • 参数设置:类别数目C,权重指数 α=β=2,δ,终止阈值ε等。

  • step1:初始化 ,随机选取C个样本作为初始聚类中心。

  • step2:根据 ,使用下面公式计算得到 ;( 表示第 t 次迭代时得到信任分区函数,是由组成的 矩阵)

  • step3:根据 ,先使用下面公式计算得到 ,再使用矩阵变换 计算得到 ;(表示第 t 次迭代得到的簇的中心向量,是一个 c×p 的矩阵)

  • step4:不断交替迭代第2、3步,当满足。算法结東。

 

3.样本集的信任分区M

用一个新的参数 W 控制类标签在聚类过程中的权重。当W=0时,标签不起作用,简化为无监督聚类;当W→∞时,分类将完全取决于标签,得到的聚类与直接根据类标签除以训练集得到的聚类相同。为了平衡特征值和类值的影响,建议选择W为 ,其中 表示第 p 个特征的样本方差, 表示类别值的方差 .

在给定权重 w 和聚类数 c 的情况下,使用上面所述的算法,计算得到对数据集 T 的信任分区函数矩阵 M。

此外,对信任分区做如下处理:

  • (1)限制信任分区的数量。一般我们可以得到 个信任分区。但是为了使得 BRB 系统紧凑些,我们限制信任分区的数量,分区数量从 降为
  • (2)丢弃离群值集群。分配给空集的样本认定为异常值,将这类集合丢弃。因此分区数量再减少一个

因此,信任分区的数量为

 

4.基于ECM的BBR系统构建

基于ECM算法的BRB系统实现流程为:

如图所示,我们将基于前面对训练集的信任划分来构建置信规则。本文将从三个部分:前件部分、规则权重、后件部分来说明如何构建置信规则。

现在假设样本数据 xi 有 P 维(即有p个特征 ),对应的类别标签为 (总共有 M 种标签 ),那么

  • 规则:根据分区的数量构建相同数量的BRB规则。上一节中设定分区数量是 个,因此本BRB模型将构建 条规则。其规则权重 θ 见下面;
  • 前件部分:p 个特征将作为BRB系统的 p 个前件属性。其置信分布 α 见下面;
  • 后件部分:M 种标签将作为BRB系统的 M 个评价结果。其置信分布 β 见下面;

 

4.1 前件部分(置信度α)

根据前一节求得的信用分区矩阵 M ,可以得到样本 xi 对第 j 个分区的隶属度,提取得到置信规则的前件部分的模糊集 . 当隶属度函数是高斯形式时,有:

对于第 j 个分区,生成 p 个模糊集,构成了第 j 条规则的 P 个前件属性的置信分布。

 

4.2 后件部分(置信度β)

根据前一节求得的信用分区矩阵 M ,将样本 xi 分配给隶属度最大的分区。那么可以将训练集 T 分成 分区。那么归属到第 j 分区的样本有:

如果样本 xi 的类别标签为 ck,那么可以看成是归属于 ck 的一条证据。这条证据的质量为:

,其中

其中 C 是表示全局无知框架,A是表示不包含 C 和 ck 的其他分区, 计算的是样本 xi 对第 j 条规则 Rj 的前件匹配度。

对于所有属于 分区的样本 xi 的证据质量全部求出,使用 Dempster 组合规则方法,得到对第 j 条规则 Rj 的后件属性的置信分布:

对于第 j 个分区,生成 M 个置信度,构成了第 j 条规则的 M 个评价结果的置信分布。其中第 k 个评价结果的置信度为

 

4.3 规则权重 θ

规则权重根据关联规则中的支持度(support)和置信度(confidence)来获得。

置信度(confidence)是对一条规则有效性的度量,计算公式为:

,其中

备注:冲突因子 取值在0到1之间,用于度量那些用来建立相应规则的证据之间的冲突。 表示归属到第 j 个分区中的样本数量。

支持度(support)是对一条规则覆盖程度的度量,计算公式为:

根据支持度(support)和置信度(confidence)的计算,我们可以得到第 j 条规则的权重为:

 

 

5.最优簇数量 c

本文的BRB模型的规则数量等同于分区数量。簇的数量越多,那么分区数量越多,那么规则越多,则模型分类精度越高,但降低了模型的可解释性。

为了获得高精度模型,需要最小化模型输出和真实值的最小方差:

  • 是类别标签,总数是 M 个;(请注意标签类别数 M 和簇数 C不同,可能会将多个不同的标签分到同一簇中,而单个簇或者多个簇又能组成一个信任分区 )
  • 是样本 的信念推理方法的输出;
  • 是二元指标变量,定义为:如果样本 的真实标签为,则,否则

为了获得高解释型模型,规则的数量或等价的聚类数量应尽量减少。但是,为了保证聚类的有效性,聚类的数量不能太少。使用下面有效性指标进行衡量

当所有模式都被分配到单子集∅,ω1,ω2,--- ,ωC时,EPE得到下限值0。当有 mi(A) ∝ |A|,EPE达到最大值。

最后,再根据上述两个目标MSE和EPE,定义一个簇数C的单一标量目标函数:

其中λ∈[0,1]是表征用户对分类精度偏好的权重。 当λ=1时,分类精度是唯一的目标,而当λ=0时,只保证簇的有效性。在给定权重λ的情况下,通过对上述目标函数的最小化,可以得到一个最优的聚类数C,以更好地权衡准确性和可解释性。

 

6.案例研究

6.1 案例一:研究最优簇数C

选用400个二维数据,将数据分成四类。

使用ECM中参数的默认值,并考虑不同的精度偏好的权重 λ和簇数 c 下,指标 J(C) 的变化情况。

图3显示了不同簇数(C=2,3,4,5,6)下学习BRB的目标值J(C)。

当精度偏好的权重λ=1时,目标函数J(C)刚好还原为MSE度量。可以看出,随着簇数(或者等价于规则数)的递增,MSE逐渐减小。通过最小化MSE,可以得到一个大的BRB,分类精度高。

当精度偏好的权重λ=0时,目标函数J(C)刚好还原为EPE度量。我们看到,当聚类数量等于3时,EPE达到最小值,之后随着聚类数量的递增,EPE也会增加。同样以最小化EPE的方式,我们可以得到一个小的BRB,模型的可解释性较高,但分类精度相对较低。

当精度权重0<λ<1时,目标值J(C)提供了MSE和EPE之间的权衡。请注意,三种考虑的权重(λ=0.2、0.5和0.8)给出的最优簇数为 C=4,在这种情况下,信任分区数量=置信规则数量== ,分类精度为83.55%。

 

6.2 案例二:UCI机器学习数据集

本实验从UCI机器学习资源库中选取了20个具有代表性的真实数据集来评估所提出的BRB分类系统的性能。

可以看出,所选20个数据集的实例数从80到12690、特征数从4到60和类数从2到11。

表4显示了不同方法(FRBCS是模糊规则分类模型、BRBCS是传统BRB分类模型,CBRBCS是本文提出的分类模型)对真实数据集的分类准确率。括号中的数字代表每种方法的分类准确率的排名,最后一行是所有方法在20个数据集上的平均排名。可以看出本文的分类模型排名第四,而且与传统的BRBCS差距不大。

为了评估分类模型的可解释性,表5显示了两种基于信念规则的方法,即BRBCS和CBRBCS的生成规则数量。可以看出,在所有的评估数据集中,CBRBCS产生的规则数量要少得多。 为了更清楚地显示规则减少性能,我们还在最后一列提供了规则减少率(定义为RuleBRBCS)。

我们可以注意到,对于那些训练实例和特征数量较多,但类数较少的数据集(如Australian、Car、Contraceptive、Ionosphere、Nursery、Sonar、Thyroid、Vehicle),提议的CBRBCS实现了更显著的规则减少性能(规则减少率>90%)。

与传统的BRBCS相比,所提出的CBRBCS在准确性和可解释性之间获得了更好的权衡(用更少的规则数量获得相似的分类准确性)。

 

【论文阅读】A sequential learning algorithm for online constructing belief-rule-based systems

【论文阅读】A sequential learning algorithm for online constructing belief-rule-based systems

DIO:10.1016/j.eswa.2009.07.067

作者:周志杰,胡昌华,杨剑波,徐冬玲

年份:2010年

 

一种用于在线构建BRB的在线学习算法

 

1.介绍

2007年杨剑波等提出了一个通用的离线优化模型,但是对这模型进行培训和再培训的成本很高。2009年周志杰等提出了基于期望极大的在线训练的递归算法,该算法计算时间短,满足实时性要求。然而,目前的这些学习算法都是基于一个预先确定的结构的BRB。

对于一个复杂的系统,先验知识可能不完善,导致初始BRB结构不完整甚至不合适。比如,初始BRB中规则太多可能导致过拟合,而规则太少可能导致欠拟合。

在这篇论文中,我们提出了一种用于构造更紧凑的BRB系统的在线学习算法,它是基于一种新的信念规则统计效用的基础上,能实现对初始的BRB结构和系统参数都的在线调整。与其他学习算法相比,本文的算法可以自动在BRB中加入一个规则,也可以从BRB中删除一个规则,此外算法能满足实时性的要求。

 

2.置信规则的统计效用

第 t 时刻的输入信息为 ,进行ER推理后,得到BRB系统的输出为 。其中第 k 条规则的前件属性引用值对该输入的置信度记为 ,第 k 条规则对该输入的激活权重记为

在第 时刻,BRB系统中第 条规则对输入 的期望效用为:

  • 表示第 k 条规则对输入 的激活权重;
  • 是第 j 个评价结果的效用(有时直接等于参考值);
  • 是第 k 条规则的第j个评价结果的置信分布;

将激活权重的计算公式带入,可得从开始到第 T 时刻这个阶段的第 k 条置信规则的平均期望效用:

个人理解,这里相当于将 T 组输入的对第 k 条的规则的激活权重平均化。

…………当 T 接近无穷大的时候,极限思想有:

  • 表示第 k 条规则的第 i 个输入的参考值;
  • 表示输入信息 xi 与第 k 条规则的第 i 个前提属性参考值的匹配度;
  • 表示第 i 个前提属性的权重;
  • 表示输入信息 xi 的采样概率密度函数,通常在没有先验知识的情况下,假设第 i 个前件属性的输入 xi 是服从均匀分布的,即 ,其中 ai、bi分别是第 i 个属性引用值的上下界;

结合(2)(3)两式,第 k 条置信规则的统计效用计算公式近似推导为:

其中对微积分 的计算方法如下:在论文的附录部分

 

 

3.置信规则的增减

3.1 增加置信规则

对于第 t 组数据(x(t),y(t)),可以使用下面两条准则判断是否需要新增一条新规则:

  • 表示置信规则库中某条规则的参考值;
  • eg 为增加规则的阈值;

第一个公式的含义就是要求输入信息 x_t 和规则库中已有的规则参考值的欧拉距离足够大,相当于说已有的规则与新的输入数据匹配度太低了;

第二个公式的含义就是新增的第 L+1 条规则的统计效用大于给定的阈值;L+1 就是新增规则的标号;

如果这两条规则同时满足,即可在置信规则库中新增一条新的置信规则。

新增规则的参数设置如下:

  • 新规则的规则权重设置为1;

  • 前提属性权重与其他规则相同;

  • 新规则的前提属性的参考值设置为输入数据的值:

  • 新规则的评价结果置信度设置为:

 

3.2 删除置信规则

如果第 k 条规则的统计效用小于给定的阈值,则认为这条规则可以删除:

3.3 阈值设置

  • 距离阈值 ε 设定为输入变量上限值的 10%左右
  • 增加规则阈值 eg 根据期望的学习精度来设定
  • 删除规则阈值 ep 通常设定为 eg 的10%

当 ε 和 eg 设定的比较小的时候,更新后的置信规则库系统更加逼近观测值,但是库中的规则数量会比较大,使得结构更加复杂,计算量大大增加;

 

4.参数的在线更新

这一步骤使用基期望极大估计的在线更新。(具体内容看这篇论文 Zhou, Z. J., Hu, C. H., Yang, J. B., Xu, D. L., & Zhou, D. H. (2009). Online updating beliefrule-based system for pipeline leak detection under expert intervention. Expert Systems with Applications, 36(4), 7700–7709.)

  • 论文给出了参数迭代估计算法的收敛性证明。即当给参数选取恰当的初始值后,使用该参数迭代估计算法可以收敛到一个局部最优点。
  • 在 t 时刻仅有部分的置信规则被激活,所以只需要对这些规则进行参数更新,大大加快了训练速度。
  • 增加一条新的置信规则后,BRB系统的维数会增加。即

 

5.置信规则库的在线构造算法

置信规则库的在线构造算法步骤:

step1:初始化。先根据前件属性引用值的上下界限,专家们设置两条初始的规则。此外根据系统的性能要求选取合适的阈值(ε、eg、ep)。

step2:增加规则检测。假设经过前 t 时刻的观测数据的更新训练后,置信规则库里面有 L 条规则。当观测数据(x(t),y(t))到来后,如果满足增加自信规则的准则要求,那么就增加一条置信规则,即第 L+1 条置信规则。

step3:在线训练参数。使用观测数据(x(t),y(t)),使用上节介绍的参数的在线更新算法进行参数更新。这里只会对被激活的规则的参数进行更新,不会训练整个规则库,确保算法的快速性。

step4:删除规则检测。对所有的置信规则进行检测,如果第 k 条规则满足删除置信规则的准则要求,则将该条规则从系统中删除。

step5:迭代执行2、3、4步骤,直到置信规则库更新完毕。

 

6.管道泄漏检测案例

设置两条初始的规则,设置阈值 ε=0.6、eg=0.0005、ep=0.00005

 

在迭代训练过程中,规则总数的变化:

 

最终训练好的BRB系统,有5条规则。

【论文阅读】A data envelopment analysis (DEA)-based method for rule reduction in extended belief-rule-based systems

【论文阅读】A data envelopment analysis (DEA)-based method for rule reduction in extended belief-rule-based systems

DIO:10.1016/j.knosys.2017.02.021

作者:杨隆浩、王应明

年份:2017

 

本文提出了一种基于数据包络分析(DEA)的EBRB规则约简方法。主要有

  • 1)针对分类问题和回归问题,给出了规则贡献度的计算方法(4.1节);
  • 2)基于数据包络分析DEA中的CCR模型计算规则的效率值。具体来说就是先构建决策单元DMU,以规则的激活权重作为决策单元的输入,(修正的)规则贡献度作为决策单元的输出。然后以经典CCR模型,使用决策单元DMU估计出规则的效率值。
  • 3)按照DEA方法的要求,将效率值不为1的规则去除,从而实现了规则约简。

 

 

基于数据包络分析(DEA)的规则简约方法

虽然目前对BRB规则简化已经引起了广泛的关注,但是对EBRBS系统仍然缺乏减少规则的方法。

本研究提出了一种基于数据包络分析(DEA)的规则约简方法,首先通过引入数据包络分析(DEA)方法,利用经典的CCR模型(即规则约简方法的识别引擎)来评估每个规则的效率值,然后利用EBRB规则的效率值构建一个新的决策单元(DMU),以搭建EBRBS与DEA的桥梁,最终实现EBRB的紧凑结构。

 

 

1.背景介绍

在 BRBS 的优化研究中,规则约简也是一个研究重点,如统计效用[24]、主成分分析分析[25]和误差分析[26] ,已经在许多尝试中得到应用,并产生了有前途的规则约简方法。 但是在EBRBS系统方面仍然缺乏减少规则的方法。

与 BRB、神经网络、模糊模型等相比,EBRB有三个优点,可以总结如下:

  • 1)可以避免组合爆炸问题,因为它不需要覆盖每个前件属性的每个引用值的所有组合。
  • 2)扩展信念规则是一种灵活的通用知识表示方案,因为信念结构可以在规则的后向属性中找到,也可以在所有先行属性中找到。 可以说,早期的规则表示方案,如传统的决策树中的 IF-THEN 规则、基于规则系统中的模糊规则、 BRB规则,都是 EBRB 规则的特殊情况;
  • 3) EBRB 不用耗时的参数学习过程来寻找参数的拟合值,这些前件值、结果值、置信度和规则权重,都是由输入输出数据自动生成的。

然而,在以往优化 EBRB 的研究中,研究者只关注两个挑战,第一个挑战是改进规则表示方案,以更好地表达具有概率、模糊和不完备性的不确定信息。第二个挑战是调整激活规则的数量,避免EBRBS中的不完整性和不一致性,以提高 EBRB 的准确性。对于EBRB中的规则简化,很少有人尝试。

本文之所以要对 EBRB 的规则简约进行研究,是因为:

  • 1) EBRB 属于数据驱动的基于规则的系统,这样可用的输入输出数据可以很容易地转化为新的扩展置信规则,过多的低效规则会导致 EBRB 的规模过大;
  • 2)EBRB 必须为每个输入数据激活几乎所有扩展信念规则,很容易导致不一致性,而在 EBRB 的规模增加时不一致性将更加严重;
  • 3)虽然 EBRB 是 BRB 的扩展,但是 BRB 中的规则约简方法都不能用来评价扩展信念规则的效率。

针对EBRB的规则约简问题,引入数据包络分析(DEA)来评估EBRB中每个EBRB规则的效率,并排除低效规则。由Charnes等人提出的DEA是一种衡量一组同行决策单元(DMUs)的最佳相对效率的方法,这些决策单元消耗多个输入产生多个输出,每个决策单元的输入和输出权重都最有利。然而,当DEA用于识别低效规则时,必须解决两个问题。首先,置信规则的效率值是规则约简的基础,必须给出度量方法。其次,必须利用置信规则的效率值构造一个新的 DMU,从而有效地将 EBRB 和 DEA 结合在一起。

对于第一个问题,给出了扩展信念规则的贡献程度,以衡量其对EBRB推理结果的贡献。对于第二个问题,提出了基于扩展信念规则的决策单元,以激活权值作为决策单元的输入,以贡献度作为决策单元的输出。

贡献度是基于单个输入-输出数据来评价扩展信念规则的效率。基于扩展信念规则的决策单元扩展了贡献度,是一个更通用的框架,可以利用一组输入-输出数据来评价扩展信念规则的效率。

本文在基于扩展信念规则的DMU的基础上,提出了基于dea的规则约简方法,并利用经典的CCR模型作为识别引擎,计算每个扩展信念规则的效率值。最后,通过减少低效的扩展信念规则,可以生成紧凑的EBRB。

 

2.扩展置信规则库 EBRB 介绍

EBRB系统的结构为:

这里的ER推理分为三个主要步骤:

1)计算个体匹配度

(输入信息转换)将输入数据的第 i 个属性的值 转为第 i 个前件属性的第 j 个引用值的置信分布:

然后得到输入数据 X 与第 k 条规则的个体匹配度,本文对公式进行了修改,新公式为:

本文为了避免 EBRB 不一致,这里用一个阈值 ξ 用于选择合适的激活规则。因此,新的个体匹配度可以表示为:

 

2)计算激活权重

计算第 k 条规则的激活权重:

其中

 

3)合成置信度

将激活的规则的评价结果置信分布合成起来,得的EBRB系统对输入数据 X 的置信输出:

4)得的推理结果

根据系统的置信输出,得到推理结果

如果是回归问题: .

如果是分类问题: .

 

3.数据包络分析(DEA)

数据包络分析(data envelopment analysis,DEA)是一个对多投入\多产出的多个决策单元的效率评价方法。是1978年由CHARNES和COOPER创建的。

DEA 通过明确地考虑多种投入(即资源)的运用和多种产出(即服务)的产生,用来比较提供相似服务的多个服务单位之间的效率。它避开了计算每项服务的标准成本,因为它可以把多种投入和多种产出转化为效率比率的分子和分母,而不需要转换成相同的货币单位。因此,用DEA衡量效率可以清晰地说明投入和产出的组合,从而,它比一套经营比率或利润指标更具有综合性并且更值得信赖。

DEA 是一个线形规划模型,表示为产出对投入的比率。通过对一个特定单位的效率和一组提供相同服务的类似单位的绩效的比较,它试图使服务单位的效率最大化。它的结果包含的意思有:

  • θ=1,DEA有效,表示投入与产出比达到最优
  • θ<1,非DEA有效,表示投入与产出比没有达到最优,一般来说,θ越大说明效果越好。

DEA模型分为CCR模型和BCC模型。

本文使用CCR模型作为引擎,用于估计效率值。假设要对 n 个DMU进行评估,有 m 个输入和 s 个输出,那么第 个DMU的输入和输出值用 表示,其效率通常可以用以下线性优化模型来衡量

这个模型中需要优化的参数为 ,它们分别是第k个DMU的 s 个输出和 m 个输入赋值的权重。

如果 θk=1,则认为第 k 个 DMU 有高效率,否则认为效率低下。

 

4.基于数据包络分析的规则简约

贡献度用于评价基于单一输入输出数据的规则效率,而基于扩展信念规则的DMU则根据一组输入输出数据的贡献度来评价规则效率。

 

4.1 扩展置信规则的贡献度

根据Wang和Luo[56]提出的相关系数的定义,对扩展信念规则给出了详细的贡献度定义,在决策过程中,通过删除EBRB中的每条扩展信念规则来确定贡献度。如果删除这条规则后,EBRBS的准确度提高了,那么删除该规则是有利的;否则,该规则一定是重要的。

假设ER算法对L个激活规则进行整合得到的综合置信度表示为: .

考虑到决策问题分为分类问题和回归问题,给出了贡献度的两种定义:

 

1)分类问题的规则贡献度定义

假设第 t 组数入数据 Xt,输出分类为第 n 个评价结果 Dn。那么对第 k 条规则的贡献度定义为,比较第 k 条规则删除前后ER推理得到的合成第 n 个评价结果置信度的差别:

2)回归问题的规则贡献度定义

对第 k 条规则的贡献度定义为,比较第 k 条规则删除前后ER推理得到的输出值的差别:

.

 

3)分类问题实例

假设一个EBRB系统的两条规则的评价结果置信分布为:

  • R1: {(Small, 0.8), (Medium, 0.1), (High, 0.1)} ,激活权重为 0.5;
  • R2:{(Small, 0.7), (Medium, 0.3), (High, 0.0)},激活权重为 0.6;

将输入数据 X 经ER推理得到的置信分布为:{(Small, 0.7948), (Medium, 0.1758), (High, 0.0295)},实际的类别 y 是 “Small”。

完整的EBRB系统,ER合成后在 ”Small“ 属性置信:

删除规则 R1 后,ER合成后在 ”Small“ 属性置信:

删除规则 R2 后,ER合成后在 ”Small“ 属性置信:

规则 R1 的贡献度:

规则 R2 的贡献度:

所以,规则 R2 对EBRB系统有负面影响,降低或去除R2可以提供系统效率。

 

4)回归问题实例

假设一个EBRB系统的两条规则的评价结果置信分布为:

  • R1: {(Small, 0.8), (Medium, 0.1), (High, 0.1)} ,激活权重为 0.5;
  • R2:{(Small, 0.7), (Medium, 0.3), (High, 0.0)},激活权重为 0.6;

假设评价结果效用值为 Small = 0.1, Medium = 0.5 and High = 1.0 。将输入数据 X 经ER推理得到的置信分布为:{(Small, 0.7948), (Medium, 0.1758), (High, 0.0295)},实际的预期值 y 是 “0.21”。

完整的EBRB系统,系统输出值 .

删除规则 R1 后,系统输出值 .

删除规则 R2 后,系统输出值 .

规则 R1 的贡献度: .

规则 R2 的贡献度: .

所以,规则 R1 对EBRB系统有负面影响,降低或去除R2可以提供系统效率。

 

4.2 基于扩展置信规则的决策单元

贡献度有效地衡量了规则效率的计算。然而,对于规则约简,计算扩展信念规则的效率需要同时使用一组输入输出数据。为了解决和克服这个问题,必须设计一种新型的DMU,本文称为基于扩展信念规则的DMU,将激活权重作为DMU的输入,将贡献度作为DMU的输出,因为前者表示为激活规则的参与度,后者表示为激活规则的贡献度。

但是,贡献度可能是一个负值,这不能满足DMU所有数值必须是非负值的基本要求。因此,给出的如下修正:

定义第 k 条规则的修正贡献度为:

  • α为增益阈值,α=0.88
  • θ,β为损失阈值,θ=0.88,,β=2.25
  • η为平移阈值,主要保证DMU的所有值为非负,取值根据损失项的最小值进行确定

将激活权重作为DMU的输入,将贡献度作为DMU的输出,基于扩展置信规则的决策单元分解为:

实例:假设一个 EBRB 有两条规则,按照 4.1 节求得贡献度为:

  • R1:激活权重为0.5,贡献值为-0.0231;
  • R2:激活权重为0.6,贡献值为 0.0231;

此外 α=0.88,θ=0.88,β=2.25。那么规则 R1、R2的增益项为:

  • R1:
  • R2:

确保DMU所有值为非负,设η=0.1,则修正后的贡献度为 :

  • R1的修正贡献度:
  • R2的修正贡献度:

最后,基于扩展置信规则的决策单元为

 

4.3 基于DEA 的规则约简方法

基于DEA 的规则约简方法包括以下四个步骤:

step1:使用 L 条输入数据,构建一个有 L 条规则的EBRB系统;

step2:根据 T 条输入数据,计算得到每条规则的 T 组激活权重和 T 组贡献值,并构建 DMUs;

step3:使用相关优化软件对 DMUs 进行优化。根据CCR模型,需要求解如下 L 个线性优化模型,第 k 个线性优化模型为:

其中, 是第 k 条规则的效率值;wk 的输入数据 Xt 对第 k条规则的激活权重;gk 是输入数据 xt 对第 k 条规则贡献度; 分别表示输入数据 xt 对第k个扩展信念规则的激活权重和贡献度的的权重。

step4:利用每个规则的效率值更新EBRB。当第 k 条规则的效率值 时视该规则是低效的可以移除;当第 k 条规则的效率值 时给规则为高效的,保留下来。

  • 说明1:step1和step2使用的输入数据不必相同;
  • 说明2:step3中需要优化的参数是

 

5.案例研究

5.1 实验设置

为了验证DEA方法的有效性,在使用规则贡献度生成规则效率值值时,分别使用以下四种方式的规则效率值的计算方法,构建四个紧凑的 EBRB 系统用以对照:

  • 本文介绍的基于DEA的规则效率值计算 .
  • 随机生成每条规则的效率值,使其满足
  • 简单平均法,规则贡献度的平均作为效率值
  • 加权平均法,利用贡献度和激活权重生成效率值 .

以上四种方法构建的紧凑型EBRB系统分别命名为 DEA-EBRB、R-EBRB、SA-EBRB、WA-EBRB。

本文从以下几个方面衡量构建的紧凑型 EBRB 的性能:

  • EBRB 的规模;
  • EBRB 的精度,回归问题中用平均误差MAE 和均方误差 MSE,分类问题用正确分类的数量;
  • 失败数据量,即无法激活 EBRB 中任何规则的测试数据数量;

5.2 回归问题(管道泄漏检测案例)

1)规则简化

使用 500 条输入数据构建有 500 条规则的EBRB系统。

DEA-EBRB系统设置 ξ=0.8,α=0.88,β=0.88,θ=2.25,η=3。计算得到的每条规则的效率值为:

那么根据要求,不满足效率值为 1 的规则将被去除,500条规则将剩下 236 条。

 

2)性能比较

EBRB、DEA-EBRB、R-EBRB、SA-EBRB、WA-EBRB 精度上的比较:

EBRB、DEA-EBRB、R-EBRB、SA-EBRB、WA-EBRB 失败数据量上的比较:

综合来看,DEA-EBRB的效果最好;

此外,为了验证本模型是有效的,将本模型和经典EBRB、BRB进行比较:

 

5.3 分类问题(UCI经典数据集)

选用了 UCI 中的五类数据集:

 

Iris 数据集总共 150 条数据,用120条数据构建 EBRB 系统。

经过规则约简后,120条规则剩下93条有效规则。

 

性能上的比较:

综合来看,DEA-EBRB的效果最好;

 

5.4 和其他常用的机器学习算法比较(分类)

 

6.总结

本文的主要结论可以概括为三个方面:

  • (1)对于EBRBS缺乏规则约简的方法的现状,本文引入DEA来探讨EBRBS的规则约简,以缩小EBRB的规模。
  • (2)对于回归和分类问题,给出了计算扩展信任规则贡献度的定义。提出了一种基于扩展信任规则的决策单元,将激活权重作为决策单元的输入,贡献度作为决策单元的输出,用于估计扩展信任规则的效率值,这是基于DEA的规则约简方法的重要组成部分。
  • (3) 以经典CCR模型为辨识引擎,提出了一种有效的EBRBS规则约简方法。

 

【论文阅读】Belief Rule Base Structure and Parameter Joint Optimization Under Disjunctive Assumption for Nonlinear Complex System Modeling

【论文阅读】Belief Rule Base Structure and Parameter Joint Optimization Under Disjunctive Assumption for Nonlinear Complex System Modeling

DIO: 10.1109/TSMC.2017.2678607

作者:常雷雷,周志杰

年份:2017

 

本文基于赤池信息准则,建立一个双层优化模型,实现对DBRB模型结构和参数的联合优化。

孙建彬的《2018-基于双层模型的置信规则库参数与结构联合优化方法》比本文更进一步,不仅有对DBRB的双层优化模型,还有对CBRB的双层优化模型。

本文难点是使用AIC推导出优化模型的目标函数的证明过程,这里就跳过证明,直接用结论了。

此外,本文相比与2016年常雷雷等的基于赤池信息准则的结构优化

  • 常雷雷的模型优化算法中,对于模型结构优化仅仅是将模型的参数个数作为衡量模型效果的一部分,也就是训练的时候不能调整模型的参数个数,仅仅是调整模型参数的大小。

    所以常雷雷这篇中寻找最优结构是通过初试化多个不同结构(规则数不同、参数个数不同)的BRB系统,经过基于AIC的目标函数训练后,选出效果最好的模型。

  • 本文提出的双层模型,通过一种策略往BRB系统中添加规则,实现训练的时候既能调整模型的参数个数(规则数),又能调整模型的参数大小。

 

 

 

对析取式BRB的双层优化模型

BRB系统需要精简,以节省建模和计算工作。所以本文的两个要点:

  1. 使用析取假设连接前件属性,在保持BRB完整性的同时显著减少大小。
  2. 对DBRB的结构和参数进行联合优化。

 

1.介绍

BRB的两个难题:

  • 第一个难题:如何减小BRB规模。

    虽然在原始BRB定义中并没有强制要求使用合取假设或析取假设,但大多数研究都使用了合取假设。这个假设要求覆盖所有属性的所有引用值的所有可能组合,就可能导致组合爆炸问题。

    目前,常等人提出一种BRB结构学习的方法,将初始的5个属性减少到3个属性;周志杰等人提出统计效用概念吗,用于去除多余规则;wang等人提出EBRB(EBRB的规则数量不是根据所有前件属性引用值的所有组合来设定的);此外还有优化前件属性的引用值数量。

    这些方法或多或少都破坏了BRB系统的完整性,本文目的是建立一个既精简又完整的BRB模型。

  • 第二个难题:如何对BRB的结构和参数进行联合优化。

    更高的精度要求,通常需要更复杂的BRB结构。如何在精度不降低的情况下,优化BRB结构。本文通过联合优化BRB的结构和参数来平衡建模的精度和建模复杂性(PS:在进行参数优化的同时,进行结构优化)。

    目前,杨剑波提出第一个通用BRB参数学习框架;周志杰提出在线优化模型(基于极大似然期望);

    本文则是提出一个同时进行结构优化和参数优化的模型。参数优化是为了提高BRB系统的精确度,结构优化是为了降低BRB系统复杂度。

本文组织: 第二节中介绍了BRB的基础知识。 第三节介绍了析取假设。 第四节和第五节分别介绍了BRB联合优化模型和优化算法。 第六节研究了两个实际案例。 第七节提出结论。

 

2.BRB系统

2.1 合取形式的好处和坏处

合取形式的最大好处是保证BRB的完整性,而坏处是面临组合爆炸问题。

 

2.2 BRB结构和参数学习的挑战

本文首次同时考虑BRB的结构优化和参数优化,从而实现一个更低的复杂度和更高的准确率的BRB系统。优化框架如下:

在左边的五个参数中,其中三个参数用于BRB参数优化模型,分别是前件属性引用值、规则权重、后件属性置信度;另外另个参数用于BRB结构优化模型,分布是前件属性数量、前件属性引用值数量。

 

3.析取形式的BRB

3.1 析取形式

BRB规则的析取形式表示为

这就意味了,只要满足一个前件属性,规则就会被激活。因此,在激活权重计算公式中,乘法变为加法,此外还去掉了属性权重参数,公式定义如下:

 

3.2 析取形式的特征

论文中使用下图,对比显示合取形式与析取形式下的规则数量。

假设有两个属性 {A,B},每个属性有三个引用值,合取形式需要9条规则才能表示所有组合,析取形式只要3条规则即可。

析取形式的特征有:

  • 1)BRB的完备性

    BRB的完备是指它能处理任何的数据,即对任何输入数据都能有输出。也就是说对于任何输入都有相应的规则能被激活。

    在图4中进一步说明了这种情况。图4 (a)显示了连接形式下,规则(A2B2、A2B3、A3B3、A3B2)被激活输入。图4 (b)显示析取形式下,规则(A2B2、A3B3)被激活。

    事实上,析取形式下,对任何输入,可以使用规则激活权重公式通过投影轴激活相邻规则,确保匹配度的计算结果与假设基本一致。

  • 2)规则数量的减小:析取形式下规则数量只与引用值的数量相关

  • 3)待优化参数数量的减少:

 

4. 析取形式下的BRB优化模型

4.1 赤池信息准则(AIC)

AIC信息准则是衡量统计模型拟合优良性的一种标准,由于它为日本统计学家赤池弘次创立和发展的,因此又称赤池信息量准则。它建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

在一般的情况下,AIC可以表示为:

其中,N是参数的数量,L(θ)是似然函数。

 

4.2 基于AIC的BRB优化模型目标函数

虽然AIC是为线性模型开发的,但有人认为AIC也可以应用于非线性模型的BRB。

具体推导过程见:常雷雷的《2016-Akaike information criterion-based objective for belief rule base optimization》、或者孙建彬的《2018-基于双层模型的置信规则库参数与结构联合优化方法》也有这部分内容。

跳过推导过程,直接使用结论。本文中给出了一个新的基于AIC的BRB优化模型的目标函数为:

其中, 是实际输出和估计输出的均方误差;M是训练数据的的数量;N是参数数量。

 

4.3 双层BRB优化模型

基于上述分析,推导出一个同时优化结构和参数的双层模型:

其中,v 是多个待优化参数组成的向量,由前件属性的引用值、规则权重、后件属性的置信度组成;

实际上,这个双层模型由上次模型和下层模型组成(姑且先这么称呼好了)。

下层模型是就是一个参数优化模型,是在确定了参数种类、参数个数、规则条数的情况下,对前件属性的引用值、规则权重、后件属性的置信度进行训练:

上层模型是为了优化结构。在上层优化模型中,目标是最小化AIC,其决定性的变量是来自于下层优化模型的参数准确性(MSE)和结构复杂性(规则数k):

其中,k是规则数量,但是因为在析取形式中BRB的规则数量必须在两个以上,所以精简后的BRB系统规则数量在[2,L]内。

 

5. 析取形式下的BRB优化算法

step1:初始化。首先先设置初始的BRB模型只有 2 条规则。确定BRB结构后,开始下层模型的训练。下层模型就是一个参数优化算法,本文这里使用了常见的用差分进化算法(DE)。

step2:迭代训练。开始上层模型的训练,这里通过一定的策略往BRB模型中添加规则:先随机选择两个相邻规则 , ,然后从两个规则中初始化一个规则 (大概的意思就是 的引用值在这两条相邻的规则之间 )。如果BRB系统加入这个规则再经下层模型的训练后能得到更好的效果,那么就将 规则正式加入到BRB系统中,否则重复这一步骤。

step3:直到添加了所有的组合或者找不到可用的 ,此时可以结束算法,得到了一个即精简又精确的BRB系统。

具体的伪代码可以参考如下(来自孙建彬等,基于双层模型的置信规则库参数与结构联合优化方法)

image.png

 

6. 案例研究

(1)在下层算法中分布对比使用了 DE/GA/PSO 三种算法,实验结果显示 DE 算法效果最好(MSE最低),需要使用5条规则。

下面是5条规则,使用DE算法训练后的BRB的参数:

 

(2)将本文所提出的BRB模型与历年来在管道泄漏检测案例上的BRB模型比较,结果显示本文的模型具有更高的准确率和更少的规则数。

 

(3)将本文模型与SVM、Fuzzy System进行比较,还是使用管道泄漏检测案例,结果显示本文的BRB更优。

 

(4)燃气轮机发动机传感器信号推理案例

 

 

 

 

7. 结论

本文针对并解决了两个挑战。第一个挑战是如何避免传统连接假设在构造过程中带来的组合爆炸问题。第二个挑战是如何联合优化BRB的结构和参数。

对于第一个挑战,用析取假设代替传统的合取假设,在保持完整性的同时缩小BRB;

对于第二个挑战,已经开发了一个BRB联合优化方法,结合了双层优化模型和优化算法。在联合优化模型中,采用一种新的基于AIC的目标来表示建模的精度和建模的复杂性。

Fault Prediction Method for Wireless Sensor Network Based on Evidential Reasoning and Belief-Rule-Base

Fault Prediction Method for Wireless Sensor Network Based on Evidential Reasoning and Belief-Rule-Base

DIO:10.1109/ACCESS.2019.2922677

作者:贺维(哈尔滨理工大学博士、哈尔滨师范大学任职),周国辉(哈尔滨师范大学、通讯), 周志杰(火箭军工程大学)

年份:2019

引用格式:He W , Yu C Q , Zhou G H , et al. Fault Prediction Method for Wireless Sensor Network Based on Evidential Reasoning and Belief-Rule-Base[J]. IEEE Access, 2019.

 

本文针对无线传感器网络(WSN)故障预测案例,提出了一种基于证据推理(ER)和置信规则库(BRB)的故障预测方法。本文的要点有:

  • 1)通过分析无线传感器网络故障特征,提取故障状态指标。采用ER方法实现了具有不确定性的定性和定量指标的证据融合,从而计算出当前无线传感器网络的故障评估结果。这里文章不是使用BRB模型,而是用最原始的ER迭代方法进行评估。
  • 2)使用BRB模型,基于现在的故障状态,预测下一时刻的故障状态。这是将BRB模型应用于预测问题中,值得借鉴参考。
  • 3)使用 P-CMA-ES(投影协方差矩阵自适应进化策略)算法对 BRB 模型进行优化,这就新学了一种 BRB 模型优化方法。

 

基于ER和BRB的无线传感器网络故障预测方法

本文提出了一种基于证据推理(ER)和置信规则库(BRB)的无线传感器网络故障预测方法。首先,描述了无线传感器网络故障预测的过程,主要包括当前无线传感器网络的故障评估和未来无线传感器网络的故障预测。其次,建立了无线传感器网络故障预测模型,包括基于ER的故障评估模型和基于BRB的故障预测模型。采用投影协方差矩阵自适应进化策略(P-CMA-ESs)优化模型参数。最后,通过实例验证了该模型的有效性。实验结果表明,该模型能够充分估计当前无线传感器网络的故障状态,进而预测未来无线传感器网络的故障状态。

 

1.问题背景

无线传感器网络(wireless sensor network,WSN)是一种分布式智能网络,能够独立完成监控目标的信息采集任务。然而,由于传感器资源、网络带宽、工作环境等因素的影响,无线传感器网络容易发生故障。无线传感器网络故障预测技术能够估计出无线传感器网络的故障趋势,为制定和实施应急策略提供依据。

无线传感器网络是一个不可靠的网络。造成无线传感器网络故障的因素很多,具体表现在以下几个方面:

  • 1)无线传感器网络中存在大量的传感器,由于传感器价格便宜,传感器资源有限。当传感器长时间工作时,无线传感器网络故障是自然发生的。
  • 2) 传感器使用电池作为能源,这限制了传感器的能源供应。随着电源电力减弱,采集到的数据的精度不断降低,传感器的精度也在不断降低。
  • 3) 无线传感器网络通常在恶劣的环境中工作。许多因素导致传感器被破坏,如自然环境、天气变化和野生动物。
  • 4) 无线传感器网络采用自组织无线通信方式,限制了传感器的通信带宽。当无线传感器网络受到电磁干扰或进行大量数据通信时,会造成传感器数据的失真和丢失。

通过以上分析可知,随着运行时间的增加,无线传感器网络的故障概率逐渐增大,从而导致了无线传感器网络可靠性的降低。

无线传感器网络故障预测是一种新的无线传感器网络故障状态感知技术,它可以对当前无线传感器网络的故障状态进行分析,从而预测未来的无线传感器网络的故障状态。

近年来,人们提出了许多不同的故障预测方法。根据建模所使用的信息,故障预测方法可分为三类:

  • 1)基于定性知识的故障预测方法。分析了该系统的工作原理和故障特征。通过专家系统[16]、Petri网、故障树等专家知识建立故障预测模型。这些方法不受观测信息的影响。然而,当系统结构复杂时,专家知识的不确定性和不完整性会导致模型精度的下降。
  • 2) 基于定量信息的故障预测方法。分析了系统状态的观测数据。结合系统辨识与优化理论,建立了贝叶斯[5]、[6]、神经网络[11]、粒子滤波[9]、时间序列[7]、深度学习[12]等故障预测模型。该方法在建模前不需要了解系统的内部机理,通过训练样本来提高模型的精度。当样本数不足或样本数不相等时,很难建立准确的故障预测模型。同时,该模型属于黑盒模型,建模过程不可解释。
  • 3) 基于半定量信息的故障预测方法。将定性知识和定量信息相结合,建立了马尔可夫[17]、模糊神经网络[18]等故障预测模型。这些方法可以解决故障预测模型样本不完全、知识不准确的问题,但模型的建立和训练比较困难。

在无线传感器网络中,影响故障预测精度的因素很多[19]。第一,系统状态信息包含来自多个数据源的不同类型的数据,并对其进行定性和定量描述。第二,在环境变化和电磁干扰的影响下,系统状态信息存在模糊不确定性和概率不确定性。第三,无线传感器网络故障具有不确定性、非线性、并发性等特点,导致其故障状态无法准确描述。因此,第三类方法基于半定量信息的故障预测方法更适合于无线传感器网络。

本文主要有两个创新点:

1)首次提出了一种基于ER的无线传感器网络故障评估方法。该方法有效地融合了多个故障指标,保证了评估结果的有效性和可解释性。其中 α 是评估置信度、权重等组成的参数集。

2) 首次提出了一种基于BRB的无线传感器网络故障预测方法。BRB使用专家知识和培训样本。利用专家知识定义BRB的先行属性和初始参数。通过训练样本对BRB的参数值进行优化,以获得更准确的预测结果。其中 ε 是规则权重、后件置信度等组成的参数集。

本文将无线传感器网络故障预测问题定义为 ER(·) 和 BRB(·) 的求解,以及参数集 α 和参数集 ε 的求解。

 

2.WSN问题的ER模型

无线传感器网络故障包括网络故障和传感器故障。每个故障都受多个故障指示灯的影响。本节使用ER迭代算法对各指标进行融合,得到故障评估结果。

对故障评估结果进行了量化,具体描述如下:

  • 1)将故障评估结果量化为 [0, 1] 的实数区间。
  • 2)故障评估结果与无线传感器网络故障威胁呈正相关。故障评估结果越高,故障对无线传感器网络的威胁就越严重。

采用ER迭代算法对无线传感器网络故障评估的实现过程描述为:

step1:初始化。故障评估等级的设定范围由专家设定。基于专家知识初始化各指标不同故障评估等级的置信度。第 m 个故障 描述如下:

  • 表示第 m 个故障的第 r 个评估状态等级;
  • 表示第 m 个故障中第 r 个评估等级的置信度;
  • 表示第 m 个故障的评估等级的数量;

step2:用 ER 迭代算法对各故障指标的置信度进行融合。

step2.1:首先,用置信度 求其基本概率质量:

  • 表示第 m 个故障的权重;

  • 表示第 m 个故障中第 r 个评估等级的基本概率质量;

  • 表示第 m 个故障中未分配给任何一组评估等级的基本概率质量; 实际上可以分解为两个部分

    • 表示第 m 个故障的不重要度;
    • 表示第 m 个故障的评价等级的不完整性;

step2.2:使用迭代的方式将 M 个故障指标的置信度融合,先融合第 1 个和第 2 个故障指标得到 I(2),然后融合 I(2) 和第 3 个故障指标得到 I(3) ,……,最终得到 I(M):

step2.3:计算故障评价等级的置信度,第 r 个故障评价等级的置信度为:

step3:输出组合结果。将置信度乘上效用值得到输出结果:

 

 

3.WSN问题的BRB模型

3.1 BRB模型的规则形式

对 t 时刻的故障评估结果 y(t) 进行分析,计算 t+1 时刻的故障预测结果 y(t+1) ,BRB模型可以描述为:

 

3.2 BRB模型的推理过程

然后使用 ER 算法实现求预测结果,该过程为:

step1:初始化 BRB 模型,即设置规则权重、后件置信度等参数。

step2:计算输入数据对第 k 条规则的匹配度为:

step3:计算第 k 条规则的激活权重,其中 θk 是第 k 条规则的规则权重:

step4:将激活的规则的后件置信分布融合:

step5:输出组合的结果,将融合后的置信度乘上效用:

 

3.3 BRB模型的优化方法

为了提高基于BRB的故障预测模型的精度,可以对BRB模型参数进行优化。BRB模型的优化模型描述为:

通过以上分析,BRB模型的优化问题是一个具有约束条件的全局优化问题。为了处理高维非线性优化问题,本文选择了P-CMA-ES算法。

P-CMA-ES是投影协方差矩阵自适应进化策略(The projection covariance matrix adaptation evolutionary strategies)的缩写,主要用于解决连续优化问题。

该算法调整参数的基本思路是:调整参数使得产生好解的概率逐渐增大(沿好的搜索方向进行搜索的概率增大)。示意图如下所示:

P-CMA-ES算法的步骤:

step1:初始化。在BRB参数集ε0的基础上,定义初始参数,设置种群中解的数目为 PNUM,其中最优解的个数即最优子群规模为 DNUM,迭代 GMAX 次。

step2:抽样。从第 g 代种群中最优子群解的平均值基于正态分布生成第 g+1 代种群,可以描述为:

  • 表示第 g+1 代种群中第 i 个解;其中 .
  • 表示第 g 代种群中最优子群解的均值;
  • 表示正态分布;
  • 表示第 g 代种群的协方差矩阵;

step3:投影。对优化模型的每个相等约束执行投影操作,可以描述为:

  • VNUM 表示变量的不等式约束个数;
  • ENUM 表示解的不等式约束个数;
  • V 表示等式的参数向量;

step4:选择和重组。选择含目标值最小的 DNUM 个解的作为最优子集,求其解均值:

  • 表示第 i 个最优解的权重;

step5:更新协方差矩阵,计算 g+1 代种群的协方差矩阵,得到种群搜索的范围和方向:

其中:

  • 分别表示学习率;
  • 表示第 g 代种群协方差演化路径,其中
  • 表示第 g 代种群进化步长,其中
  • 是单位矩阵;

step6:当种群最大进化产生达到最大进化时,停止进化。否则继续第 2 步。

 

4.WSN故障预测模型

本文设计的无线传感器网络故障预测模型的实现过程总结为:

  • step1:建立了基于ER的故障评估模型。在无线传感器网络运行阶段,通过分析无线传感器网络故障特征,提取故障状态指标。采用ER方法实现了具有不确定性的定性和定量指标的证据融合,从而计算出当前无线传感器网络的故障评估结果。
  • step2:建立了基于BRB的故障预测模型。将现有的WSN故障评估结果作为输入,采用ER算法进行分析。最后给出了未来无线传感器网络的故障预测结果。
  • step3:提高BRB模型的预测精度。采用投影协方差矩阵自适应进化策略(P-CMA-ES)对模型进行优化。

 

5.案例研究

使用 120 组数据。

在故障评估部分中,选择故障类型和故障率作为故障评估的主要指标。

故障类型包括正常故障、完全故障、固定偏差故障、漂移故障和精度下降故障。

故障率是一个定量指标,第 i 种故障类型的故障率为:

  • Fi 表示第 i 种故障类型的传感器数量;
  • ALL 是所有传感器数量;

故障评估结果分为五种,效用值为 high(VH)=0.8,high(H)=0.69,medium(M)=0.58,low(L)=0.47,very low(VL)=0.25。

在故障预测部分,初始的 BRB 模型为:

然后使用 P-CMA-ES 算法对 BRB 模型进行参数优化。

将本文方法(BRB)与模糊专家系统(fuzzy expert system)、径向基函数(RBF)神经网络、BP神经网络进行比较,十轮实验的 MSE 值为:

 

【论文阅读】Belief rule based expert system for classification problems with new rule activation and weight calculation proce

【论文阅读】Belief rule based expert system for classification problems with new rule activation and weight calculation procedures

DIO:10.1016/j.ins.2015.12.009

作者:常雷雷、周志杰、杨隆浩

年份:2015

 

本文提出了析取式的规则来减小BRB规模

PS:注意本实验的目的不是为了追求最佳BRB模型,而是为了验证:在使用析取式而大大减少规则数量的情况下,能保证BRB可以不错的分类效果。

 

 

规则为析取范式的BRB专家系统

1.介绍

本研究的其余部分组织如下。第2节讨论了BRB在分类问题中的适用性和挑战。第3节介绍了新的规则激活和权重计算程序,第4节提出了使用ER和DE的优化算法。第5节提出了新的BRB分类器。第6节研究了5个基准,以验证BRB分类器的效率和鲁棒性。第7节总结了研究。

 

2.BRB的难题

第一个难题:传统BRB系统面临组合爆炸问题。

  • (1)过大的BRB分类器无法被专家有效访问,例如在实际情况下专家不可能给出上百条初始规则。
  • (2)考虑到信念规则中存在多个参数,过大的BRB分类器可能会消耗过多的计算资源。
  • (3)过大的BRB分类器可能会导致过拟合问题,导致计算和建模性能下降。

第二个难题:必须优化BRB分类器的参数

 

3.析取规则和新的激活权重计算公式

3.1 合取式和析取式

传统BRB规则采用合取式的,为保证BRB的完整性,要求要规则库覆盖所有引用值组合,这必然导致组合爆炸。

为了解决这个问题,本文改用析取式规则,只要满足所有引用值都出现在规则库中(不要求进行组合)即可,会大大减少了规则数量。

比如对于两个属性 A和B,每个属性都有3个引用值,那么合取式规则(图3左)需要9条,析取式规则(图3右)仅需要3条,一个输入值 I(图3所示),对于合取式会激活A2B3、A3B3、A2B3、A3B2四条规则,对于析取式会激活A2B2、A3B3两条规则,而两者的匹配度是一样的(图中用相同颜色彩笔标出了)

36020200523105546328.jpg

对于另外一个输入 I(图4所示),对于合取式会激活A1B3、A2B3、A1B2、A2B2四条规则,而对于析取式会激活A1B1、A2B2、A3B3三条规则,相同的匹配效果也用相同彩笔标出了

36020200523132942300.jpg

所以可以得出结论:所提出的析取式规则激活过程可以产生与合取式规则相同的属性匹配度

 

3.2 新的权重计算公式

(1)个体匹配度

输入数据 x 与第 k 条规则的前件属性引用值的匹配度为:

对于模糊数据而言,输入值存在不确定性,我们用 表示对输入值 xi 的置信度。

(2)前件属性置信度

采用隶属度函数的方法,计算输入值 对第k条规则的前件属性引用值 的置信度:

特别的当输入值完全确定即 时, 那么有

(3)激活权重公式

因为规则用析取连接,只要一个属性被激活那么整条规则都被激活,所以激活权重公式改为求前件属性置信度和。析取式规则的激活权重公式为:

 

4.优化模型和算法

本文的优化模型如下:

注意到本文所用的优化模型:1.BRB模型中没有属性权重;2.没有将规则数作为优化参数。

使用DE算法训练。

 

5.BRB的分类模型

 

6.案例研究

(1)本实验使用了五个经典分类数据集:Iris、Wine、Glass、Cancer、Pima

注意本实验的目的不是为了追求最佳BRB模型,而是为了验证:在使用析取式而大大减少规则数量的情况下,BRB也能取得不错的分类效果。

下图是合取式BRB和析取式BRB的规则数量对比:

通过10/5/2倍交叉验证测试了这五个数据集,……

 

(2)将析取式BRB与传统的分类器比较:

可以注意到,BRB在面对 Glass 分类上效果不佳,这是因为 Glass数据集高达 7 个类别,在处理多类别数据时,BRB的效果表现不如模糊集。

 

(3)BRB分类器的鲁棒性和稳定性研究:

在2000次的迭代实验中,BRB模型的误差可以快速的减少到一个满意的值。数据表明,误差在不断发展的过程中急剧减少,在此过程中,前几百代可以达到一个很小的误差值,而后几代则保持稳定。